Chpater 3.3 低品質レファレンスゲノムへの対応策
当記事は・・・ 参考書「バイオインフォマティクス Pythonによる実践レシピ」(著・Tiago Antao/訳・阿久津達也、竹本和広/朝倉書店)を勉強中の初心者まじめちゃんが、書籍の感想を述べたり、書籍中のコードで出てきたエラーを修正していくブログ記事です。 めざせ脱バイオインフォ初心者!
またもやデータをダウンロードできない事象が発生しました。
Githubで公開されているコード
!rm -f atroparvus.fa.gz gambiae.fa.gz 2>/dev/null
!wget ftp://ftp.vectorbase.org/public_data/organism_data/agambiae/Genome/agambiae.CHROMOSOMES-PEST.AgamP3.fa.gz -O gambiae.fa.gz
!wget https://vectorbase.org/common/downloads/Pre-VEuPathDB%20VectorBase%20files/Anopheles-atroparvus-EBRO_SCAFFOLDS_AatrE1.fa.gz -O atroparvus.fa.gz
このコードだとA.gambiae、A.atroparvusのゲノムどちらもダウンロードすることができませんでした~(T T)
リンクがアップデートされたのかと思います。
もう、ほぼお決まりの展開・・・
↓
2022年1月30日の時点で動いたコード
全く同じデータかは分かりませんが、こちらのコードに書き換えたらダウンロードできました。(書籍の解析結果と同じ結果が得られたので、同じゲノムかと思われます)
!rm -f atroparvus.fa.gz gambiae.fa.gz 2>/dev/null
!wget https://vectorbase.org/common/downloads/Legacy%20VectorBase%20Files/Anopheles-atroparvus/Anopheles-atroparvus-EBRO_SCAFFOLDS_AatrE1.fa.gz -O atroparvus.fa.gz
!wget https://vectorbase.org/common/downloads/Legacy%20VectorBase%20Files/Anopheles-gambiae/Anopheles-gambiae-PEST_CHROMOSOMES_AgamP3.fa.gz -O gambiae.fa.gz
もしこのコードもダメになっていたら以下の探し方で見つけてみてください。
探し方
ひとまずVectorBaseのダウンロードページへ
VectorBase公式ページ↓
https://vectorbase.org/vectorbase/app
ダウンロードページ↓
https://vectorbase.org/common/downloads/
ここを頑張って漁ってみてください。
私が探したときはLegacy_VectorBase_Filesの中にほぼ同じ名前のfa.gzファイルが存在したので、それをダウンロードしました。
その他の誤植
Chapter3.3はほかには1か所エラーがありました。
(2) p. 74のコードで最後の4行分(for chrom, Ns in…から最後まで) のコードのインデントが間違ってます。一番左に詰めた状態が正解です。
「バイオインフォマティクス Pythonによる実践レシピ」(朝倉書店)の勉強に関するほかの記事は以下からお探しください
↓
“Chpater 3.3 低品質レファレンスゲノムへの対応策” への1件の返信