NCBIデータベースからSRAデータをダウンロードする

バイオインフォ勉強中のまじめちゃんです。今日はNCBIデータベースからメタゲノムやトランスクリプトームのRUNデータをダウンロードする方法をまとめていこうと思います!

1. Accession IDを取得する

これは以前こちらの記事にもまとめたEntrezが使えます。

今回はnucleotideデータベースではなくsequence read archive (SRA) にアクセスします。

例えば、パンダの腸内細菌で検索するならこんな感じです。

from Bio import Entrez
import csv
Entrez.email = ‘自分のメアドいれてね’
handle = Entrez.esearch(db=’sra’, term=’panda gut microbiota‘)
rec = Entrez.read(handle)
print(rec)

{‘Count’: ‘781’, ‘RetMax’: ’20’, ‘RetStart’: ‘0’, ‘IdList’: [‘13338998’, ‘13338997’, ‘13338996’, ‘13338995’, ‘13338994’, ‘13338993’, ‘13338992’, ‘13338991’, ‘10440584’, ‘10440583’, ‘10440582’, ‘10440581’, ‘10440580’, ‘10440579’, ‘10440578’, ‘10440577’, ‘10440576’, ‘10440575’, ‘10440574’, ‘10440573’], ‘TranslationSet’: [{‘From’: ‘microbiota’, ‘To’: ‘”Microbiota”[Organism] OR microbiota[All Fields]’}, {‘From’: ‘panda’, ‘To’: ‘panda[All Fields]’}], ‘TranslationStack’: [{‘Term’: ‘panda[All Fields]’, ‘Field’: ‘All Fields’, ‘Count’: ‘6391’, ‘Explode’: ‘N’}, {‘Term’: ‘gut[All Fields]’, ‘Field’: ‘All Fields’, ‘Count’: ‘1187418’, ‘Explode’: ‘N’}, ‘AND’, {‘Term’: ‘”Microbiota”[Organism]’, ‘Field’: ‘Organism’, ‘Count’: ‘1140’, ‘Explode’: ‘Y’}, {‘Term’: ‘microbiota[All Fields]’, ‘Field’: ‘All Fields’, ‘Count’: ‘764681’, ‘Explode’: ‘N’}, ‘OR’, ‘GROUP’, ‘AND’, ‘GROUP’], ‘QueryTranslation’: ‘panda[All Fields] AND gut[All Fields] AND (“Microbiota”[Organism] OR microbiota[All Fields])’}

大事なのはIdListです。

IdListをリストに格納しておけば大量のサンプルをfor文などで一括検索できますが、今回は一つ目のID ‘13338998’ を試しに見てみましょう。(ちなみにこれはジャイアントパンダのアンプリコンシーケンスのデータみたいです)

handle = Entrez.esummary(db=’sra’, id=’13338998′)
rec = Entrez.read(handle)
print(rec[0][‘Runs’])

<Run acc="SRR13830126" total_spots="84732" total_bases="35568031" load_done="true" is_public="true" cluster_name="public" static_data_available="true"/>

Run accの欄にある”SRR13830126″がRUNのアクセッションNoです!

まず第一段階クリア!!

ちょっとまどろっこしい感じがするので、もっとストレートな方法があったらすみません。

2. SRA tool kitのインストール

以下のサイトを参考にインストールしていきます↓

02. Installing SRA Toolkit · ncbi/sra-tools Wiki (github.com)

私はLinux (ubuntu) を使っているのでこちらのコードでインストールしていきます

wget –output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

tar -vxzf sratoolkit.tar.gz

export PATH=$PATH:$PWD/sratoolkit.2.11.2-ubuntu64/bin #ここはバージョンによって変える

which fastq-dump

vdb-config -i

これでインストール完了です

3. SRA toolkitでシーケンスデータをダウンロードする

FASTAファイル形式でダウンロードしてみましょう。

fasterq-dump –split-files SRR13830126

ちなみに複数のアクセッションNoを入れる場合はtxtファイルに入れておくことで、一括ダウンロードできるみたいです。

参考

NCBI公式

Download SRA sequences from Entrez search results (nih.gov)

SRA Toolkit

02. Installing SRA Toolkit · ncbi/sra-tools Wiki (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA