Chpater 3.3 低品質レファレンスゲノムへの対応策

当記事は・・・ 参考書「バイオインフォマティクス Pythonによる実践レシピ」(著・Tiago Antao/訳・阿久津達也、竹本和広/朝倉書店)を勉強中の初心者まじめちゃんが、書籍の感想を述べたり、書籍中のコードで出てきたエラーを修正していくブログ記事です。 めざせ脱バイオインフォ初心者!

またもやデータをダウンロードできない事象が発生しました。

Githubで公開されているコード


!rm -f atroparvus.fa.gz gambiae.fa.gz 2>/dev/null

!wget ftp://ftp.vectorbase.org/public_data/organism_data/agambiae/Genome/agambiae.CHROMOSOMES-PEST.AgamP3.fa.gz -O gambiae.fa.gz

!wget https://vectorbase.org/common/downloads/Pre-VEuPathDB%20VectorBase%20files/Anopheles-atroparvus-EBRO_SCAFFOLDS_AatrE1.fa.gz -O atroparvus.fa.gz


このコードだとA.gambiae、A.atroparvusのゲノムどちらもダウンロードすることができませんでした~(T T) 

リンクがアップデートされたのかと思います。

もう、ほぼお決まりの展開・・・

2022年1月30日の時点で動いたコード

全く同じデータかは分かりませんが、こちらのコードに書き換えたらダウンロードできました。(書籍の解析結果と同じ結果が得られたので、同じゲノムかと思われます)


!rm -f atroparvus.fa.gz gambiae.fa.gz 2>/dev/null
!wget https://vectorbase.org/common/downloads/Legacy%20VectorBase%20Files/Anopheles-atroparvus/Anopheles-atroparvus-EBRO_SCAFFOLDS_AatrE1.fa.gz -O atroparvus.fa.gz
!wget https://vectorbase.org/common/downloads/Legacy%20VectorBase%20Files/Anopheles-gambiae/Anopheles-gambiae-PEST_CHROMOSOMES_AgamP3.fa.gz -O gambiae.fa.gz


もしこのコードもダメになっていたら以下の探し方で見つけてみてください。

探し方

ひとまずVectorBaseのダウンロードページへ

VectorBase公式ページ↓

https://vectorbase.org/vectorbase/app

ダウンロードページ↓

https://vectorbase.org/common/downloads/

ここを頑張って漁ってみてください。

私が探したときはLegacy_VectorBase_Filesの中にほぼ同じ名前のfa.gzファイルが存在したので、それをダウンロードしました。

f:id:rakikix:20220130134010p:plain
Legacy VectorBase Files/ に目的のデータがありました

その他の誤植

Chapter3.3はほかには1か所エラーがありました。

(2) p. 74のコードで最後の4行分(for chrom, Ns in…から最後まで) のコードのインデントが間違ってます。一番左に詰めた状態が正解です。

「バイオインフォマティクス Pythonによる実践レシピ」(朝倉書店)の勉強に関するほかの記事は以下からお探しください

“Chpater 3.3 低品質レファレンスゲノムへの対応策” への1件の返信

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA