Chapter 2.4 FASTQフォーマットの利用

当記事は・・・参考書「バイオインフォマティクス Pythonによる実践レシピ」を勉強中の初心者まじめちゃんが、書籍の感想を述べたり、書籍中のコードで出てきたエラーを修正していくブログ記事です。めざせ脱バイオインフォ初心者！

本節は大きなエラーがなかったのでほぼメモと感想です。

シーケンスデータのクオリティ

次世代シーケンスのデータを解析する場合に、いきなり生リードを使うのはNGです。クオリティをチェックして、使えるリードを選ばないといけません。また、パブリックデータベースを使う際にも自分が使おうとしているデータがどのくらいのクオリティかを知っておくことが、データを適切に扱ううえで大切です。

自分でNGSなどする際はTrimomaticなどのツールを使って自分でクオリティを求めてリードを編集していかないといけませんが、本書はデータベースに載ってる「’qhred_quality’」をとってくるようです。

Q10やQ20であらわされるクオリティスコアが低いとリードの配列が一定の確率で間違っている可能性があります。たとえば、Q10は90%の正確性、Q20は99%の正確性・・って感じみたいです。

1）で括弧が変なとこに付け足されてます。下の赤の括弧は消すのが正解です。

1)のコードの３行目です。。

recs = SeqIO.parse(gzip.open(‘SRR003265.filt.fastq.gz’), ‘rt’, ‘encoding=’utf-8’), ‘fastq’)

この参考書はすごく参考になるのだけど、こういうしょうもないミスがやたら多い。

編集で間違って付け足したり消しちゃったりするんでしょうか？