Chapter 2.4 FASTQフォーマットの利用
当記事は・・・ 参考書「バイオインフォマティクス Pythonによる実践レシピ」を勉強中の初心者まじめちゃんが、書籍の感想を述べたり、書籍中のコードで出てきたエラーを修正していくブログ記事です。 めざせ脱バイオインフォ初心者!
本節は大きなエラーがなかったのでほぼメモと感想です。
シーケンスデータのクオリティ
次世代シーケンスのデータを解析する場合に、いきなり生リードを使うのはNGです。クオリティをチェックして、使えるリードを選ばないといけません。また、パブリックデータベースを使う際にも自分が使おうとしているデータがどのくらいのクオリティかを知っておくことが、データを適切に扱ううえで大切です。
自分でNGSなどする際はTrimomaticなどのツールを使って自分でクオリティを求めてリードを編集していかないといけませんが、本書はデータベースに載ってる「’qhred_quality’」をとってくるようです。
Q10やQ20であらわされるクオリティスコアが低いとリードの配列が一定の確率で間違っている可能性があります。たとえば、Q10は90%の正確性、Q20は99%の正確性・・って感じみたいです。
今回の修正箇所
1)で括弧が変なとこに付け足されてます。下の赤の括弧は消すのが正解です。
1)のコードの3行目です。。
recs = SeqIO.parse(gzip.open(‘SRR003265.filt.fastq.gz’), ‘rt’, ‘encoding=’utf-8’), ‘fastq’)
この参考書はすごく参考になるのだけど、こういうしょうもないミスがやたら多い。
編集で間違って付け足したり消しちゃったりするんでしょうか?