メタゲノム解析:公共データベース

バイオインフォ初心者まじめちゃんです!解析してみたいデータのひとつがメタゲノムですが、今のところ自分でNGSなどを行う予定はありません。じゃあ、どこからデータをとってくるのかというと、公共データベースから取ってくることになります。

そこで、メタゲノムデータにアクセスするための公共データベースについて調べようと思います。

メタゲノムが入っている公共データベース

MGnify

Home < MGnify < EMBL-EBI

MGnify ホーム
アクセス可能なデータタイプとバイオームの種類

MGnifyは、マイクロバイオーム情報の解析、探索のためのハブです。世界最大級のマイクロバイオームデータリソースです。約325,000サンプル、437,000解析に対応する合計約4,000件の公開研究がデータベースに寄託されています。この数は常に増加しており、過去2年間で2倍になりました。MGnifyは、10億以上の配列を含む、組み立てられた全てのデータセットの解析から生成されたnon-redundantなタンパク質セットの提供もしています。また、Linclustを用いて、配列の同一性とカバー率が90%のタンパク質配列をクラスタリングし、クラスタ代表は最長配列に選ばれます。さらに、HMMプロファイルベースのツールHMMERを使って、例えば、上述のタンパク質データセットに登録されているタンパク質との配列相同性を調べるなど非常に有用なツールを提供しています。メタゲノム、アンプリコン、メタトランスクリプトーム、メタバーコーディングなど様々な種類のデータにアクセスできます。また、ヒト、動物、海洋、植物、土壌などのバイオーム別でのフィルタリングも可能です。

IMG/M

JGI IMG Home (doe.gov)

IMG/Mホーム

Integrated Microbial Genomes and Microbiomesは、アノテーション付きゲノムおよびメタゲノム配列データを解析するための包括的なデータ管理リソースです。その数は急速に増加しており、単離されたゲノムからは約3億6千万遺伝子、メタゲノムからは約660億遺伝子に達しています。ゲノムおよびメタゲノムとそのメタデータ属性は、人手でキュレーションされた GOLD データベースから収集し、IMG アノテーションパイプラインでアノテーションされているそうです。タンパク質をコードする遺伝子は、予測プログラムProdigalによって(メタ)ゲノムデータから同定し、隠れマルコフモデル(HMM)に基づく相同配列検索によって機能的アノテーションが行われています。IMG/M には、生合成遺伝子クラスタや二次代謝産物を研究するための IMG/ABC や、メタゲノム試料から得られたウイルスゲノム断片を解析するための IMG/VR など、データ解析用のゲノムツール一式が含まれています。また、BLAST、KEGG enzyme classes and pathways、CATH families、Pfam domains などにより、対象配列と相同なタンパク質を検索するマルチサーチ機能を備えています。

MetaClust

Metaclust (mmseqs.org)

MetaClustデータベースは、約2200のメタゲノムおよびメタトランススクリプトームデータセットからProdigalによって予測された15億9000万個のタンパク質配列断片を含んでいます。これらの配列は、膨大な配列セットをクラスタリングできる高速タンパク質配列クラスタリングアルゴリズムであるLinclust を用いて4億2400万クラスにクラスタリングされました。50%の配列同一性と90%の配列カバー率でクラスタリングした2バージョンのFASTAファイルを使用できるようです。

BFD

BFD (mmseqs.com)

Big Fantastic Database (BFD) は他のデータベースとは異なり、配列プロファイルのデータベースです。MSAや隠れマルコフモデル(HMM)を用いて分類された約6,500万件のファミリーを収録しています。non-redundantな代表的タンパク質配列セットよりも作業しやすい場合があるため、メタゲノム・データベースの中でも最大級で最も利用されているデータベースです。UniProt/Trembl, SwissProt, MetaClustのほか、Soil Reference Catalog、Marine Eukaryotic Reference Catalogから約25億のタンパク質配列を収集し、de novo protein-level assembler PLASSで組み立てることで、従来の組み立て方法よりもメタゲノムから多くのタンパク質配列を回収できるのが特徴です。配列のクラスタリングは、MMseqs2/Linclust を用いて、配列同一性カットオフ30%、カバレッジ閾値90%で実施されているようです。

どのデータベースが良いのか?

データベースのプラットフォームが色々とあるのでどれを使うか迷いますが、どのデータベースが良いかは「目的による」としか言えなさそうですね。どのデータベースを使うかでその後の解析の明暗が分かれてしまう場合もあるでしょうから、実際に解析に通したりして慎重に選んだ方がよさそうな気がします。

ちなみにgoogle scholarの検索数(”データベース名” + “metagenome”で検索)は

データベースGoogle Scholar ヒット数
MGnify1440
IMG/M2410
MetaClust60
BFD172

でIMG/Mにやや軍配が上がりました。

まじめちゃんも色々悩んでデータベース決めようと思います~~~

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA