29 FracMinHashと最小のレファレンスを使った軽量なメタゲノム解析ツール
今回は最新のメタゲノム解析について調べていたら上位でヒットしたこちらのpreprintを読みますー
【論文タイトル】Lightweight compositional analysis of metagenomes with FracMinHash and minimum metagenome covers
【著者】Irber et al.
【年】2022
【ジャーナル】bioRxiv
【リンク】Gut microbiome and health: mechanistic insights | Gut (bmj.com)
メタゲノムは生物学で扱う「ビッグデータ」の代表例で、メタゲノムデータから参照ゲノムと分類記号を同定することは多くのマイクロバイオーム研究の基礎ですが、解析には時間もメモリも使います。
この論文では、より軽量なメタゲノム解析法の開発を報告しています。
この論文のポイントは①FracMinHashと②メタゲノム最小カバー(Minimum metagenome covers)です。
①FracMinHash
FracMinHashとは、sourmashソフトウェアに導入されている、k-merを用いてDNA配列データセットの中身や重複をスケッチングする技術のことです。FracMinHashは、異なるサイズの集合間のJaccard包含推定をサポートするmodulo hashの派生技術だそうです。
著者らがFracMinHashの正確性を評価した結果、k-mer=21, 31, 51の3つの条件いずれにおいてもCMashと比較してFracMinHashは正確にメタゲノム中のゲノムをcontainmentを評価していました。
②minimum metagenome cover
次に、ショットガンメタゲノム構成解析を、メタゲノム中の既知のk-merを「カバー」する参照ゲノムの最小集合を求める問題として定式化し、メタゲノム最小カバーがリードマッピングのためのレファレンスゲノムとして利用できることを示しました。つまり、通常使うような70万のレファレンスゲノム配列ではなく代表配列を抽出して使うということですね。
100%の精度ではありませんが、スピードとのトレードオフでこういったツールを使うのはありだな!と思いました。
FracMinHashはSourmashソフトウェアから使えるようです
https://github.com/sourmash-bio/sourmash