macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

k-merベースのスケーラブルなメタゲノムの全配列比較ツール Libra

 

 ショットガンメタゲノミクスは、微生物群集の生物多様性と機能に対する強力な洞察を提供する。しかしながら、メタゲノム研究からの推論は、データセットのサイズと複雑さや既存のデータベースの可用性と完全性によって制限される。 de novo比較メタゲノミクスは、それらのtotal genetic contentに基づいてメタゲノムの比較を可能にする。
 k-mer contentに基づいたメタゲノムの正確なクラスタリングによるall-vs-all比較を実行するLibraと呼ばれるツールを開発した。Libraは大規模なメタゲノム比較のためにスケーラブルなHadoopフレームワークとシーケンスデプスを正規化しながらシーケンス構成と存在量を使用して距離を計算するCosine Similarity(wiki)を使い、そしてCyVerse のサイバーインフラストラクチャによるWebベースのiMicrobe (http://imicrobe.us)で実装している。
シミュレートされたデータセットとリアルメタゲノムデータセット(8000万から42億リードまで)の両方を使い、同様のツールとLibraを比較すると、頻繁に使用されるメソッドは、データ削減、リード数正規化、距離メトリックの有無 などに関して、 大規模な比較分析では分解能が大幅に低下していた。対照的に、Libraはリードすべてを使用して、グローバル規模の分析を可能にし、微生物シグネチャを生物学的プロセスにリンクさせるために任意のサイズのデータ​​セットに拡張できるHadoopアーキテクチャでk-mer存在量を計算する。

 

Labo HP

http://www.hurwitzlab.org

 

Cyberinfrastructure for Microbial Ecology

f:id:kazumaxneo:20190106185508j:plain

 

iMicrobe Documentation

https://hurwitzlab.gitbook.io/imicrobe/

 

Libra Github


 

実行方法

ここではiMicrobeでの使用手順を確認する。

0、CyVerseのアカウントがないなら作っておく。

また、公共データではなく自分自身のデータを解析したいなら、前もってCyVerseにデータもアップデートしておく。

 

 

1、iMicrobeにアクセス。上のメニューにあるSing in to CyVerseからCyVerseにログイン、データを連携できるようにする。

f:id:kazumaxneo:20190106215805p:plain

 

2、上のメニューにあるTools => Appsにアクセスする。

f:id:kazumaxneo:20190106215313p:plain

 

3、下の方にあるlibraを選択(2019年1月現在ver.1.0)

f:id:kazumaxneo:20190106215420p:plain

3、Cart、またはData storeから入力データを選択する。

Cartはすでに登録済みのデータで、protein searchかtaxonomy searchからサンプルを選択、Cartに入れている場合選択できる(下で説明)。ここではCyVerseのデータを選択したいので、Data storeを選択。

f:id:kazumaxneo:20190106221132p:plain

サンプル(fasta/fastq)のディレクトリを選択。

 

4、必要であればパラメータを修正する。

f:id:kazumaxneo:20190106221323p:plain

Runボタンでスタート

 

5、結果が出るまでしばらく時間がかかるので、間違って2度同じジョブを走らせないように注意する。

f:id:kazumaxneo:20190106222532p:plain

結果のOutputs欄にリンクとして追加される。

 

 

 

 

Tools => taxonomy searchからはtaxonomy ID(NCBI taxonomy ID Brower)で検索して該当生物種を含む登録ずみデータ(メタゲノム/isolatesサンプル)を検索できる

f:id:kazumaxneo:20190106191708j:plain

y

種、属名などのキーワードでも検索可能

 

Tools => protein search

該当するタンパク質(IDかキーワード)を持つメタゲノムサンプルやisolatesサンプルを検索できる。

f:id:kazumaxneo:20190106191529j:plain

 

 

 

Libra以外にもメタゲノム解析で使えるツールがまとまっている。前処理、アセンブリクラスタリング、taxonomy assignmentなど(例えばTrimmostic、soapdenovo2、prokka、diamond、centrifuge、graftm)。

f:id:kazumaxneo:20190106192004j:plain

iMicrobeのツールを使えば、例えば、メタゲノムデータを前処理し、de novo アセンブリ、taxonomy assignment、という一連の作業を、端末を使わず全てクラウドでこなすことができる。

 

引用
Libra: scalable k-mer based tool for massive all-vs-all metagenome comparisons
Choi I, Ponsero AJ, Bomhoff M, Youens-Clark K, Hartman JH, Hurwitz BL

Gigascience. 2018 Dec 28

 

参考

Hadoopを40分で理解する #cwt2013 from Cloudera Japan

 

 

iMicrobe