ショットガンメタゲノミクスは、微生物群集の生物多様性と機能に対する強力な洞察を提供する。しかしながら、メタゲノム研究からの推論は、データセットのサイズと複雑さや既存のデータベースの可用性と完全性によって制限される。 de novo比較メタゲノミクスは、それらのtotal genetic contentに基づいてメタゲノムの比較を可能にする。
k-mer contentに基づいたメタゲノムの正確なクラスタリングによるall-vs-all比較を実行するLibraと呼ばれるツールを開発した。Libraは大規模なメタゲノム比較のためにスケーラブルなHadoopフレームワークとシーケンスデプスを正規化しながらシーケンス構成と存在量を使用して距離を計算するCosine Similarity(wiki)を使い、そしてCyVerse のサイバーインフラストラクチャによるWebベースのiMicrobe (http://imicrobe.us)で実装している。
シミュレートされたデータセットとリアルメタゲノムデータセット(8000万から42億リードまで)の両方を使い、同様のツールとLibraを比較すると、頻繁に使用されるメソッドは、データ削減、リード数正規化、距離メトリックの有無 などに関して、 大規模な比較分析では分解能が大幅に低下していた。対照的に、Libraはリードすべてを使用して、グローバル規模の分析を可能にし、微生物シグネチャを生物学的プロセスにリンクさせるために任意のサイズのデータセットに拡張できるHadoopアーキテクチャでk-mer存在量を計算する。
Labo HP
Cyberinfrastructure for Microbial Ecology
Check out our new manuscript @GigaScience Libra: scalable k-mer based tool for massive all-vs-all metagenome comparisons: https://t.co/JRzgQL4JC9
— Bonnie Hurwitz (@hurwitzlab) December 31, 2018
iMicrobe Documentation
https://hurwitzlab.gitbook.io/imicrobe/
Libra Github
実行方法
ここではiMicrobeでの使用手順を確認する。
0、CyVerseのアカウントがないなら作っておく。
また、公共データではなく自分自身のデータを解析したいなら、前もってCyVerseにデータもアップデートしておく。
1、iMicrobeにアクセス。上のメニューにあるSing in to CyVerseからCyVerseにログイン、データを連携できるようにする。
2、上のメニューにあるTools => Appsにアクセスする。
3、下の方にあるlibraを選択(2019年1月現在ver.1.0)
3、Cart、またはData storeから入力データを選択する。
Cartはすでに登録済みのデータで、protein searchかtaxonomy searchからサンプルを選択、Cartに入れている場合選択できる(下で説明)。ここではCyVerseのデータを選択したいので、Data storeを選択。
4、必要であればパラメータを修正する。
Runボタンでスタート
5、結果が出るまでしばらく時間がかかるので、間違って2度同じジョブを走らせないように注意する。
結果のOutputs欄にリンクとして追加される。
Tools => taxonomy searchからはtaxonomy ID(NCBI taxonomy ID Brower)で検索して該当生物種を含む登録ずみデータ(メタゲノム/isolatesサンプル)を検索できる
種、属名などのキーワードでも検索可能
Tools => protein search
該当するタンパク質(IDかキーワード)を持つメタゲノムサンプルやisolatesサンプルを検索できる。
Libra以外にもメタゲノム解析で使えるツールがまとまっている。前処理、アセンブリ、クラスタリング、taxonomy assignmentなど(例えばTrimmostic、soapdenovo2、prokka、diamond、centrifuge、graftm)。
iMicrobeのツールを使えば、例えば、メタゲノムデータを前処理し、de novo アセンブリ、taxonomy assignment、という一連の作業を、端末を使わず全てクラウドでこなすことができる。
引用
Libra: scalable k-mer based tool for massive all-vs-all metagenome comparisons
Choi I, Ponsero AJ, Bomhoff M, Youens-Clark K, Hartman JH, Hurwitz BL
Gigascience. 2018 Dec 28
参考
Hadoopを40分で理解する #cwt2013 from Cloudera Japan