macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

MetaBAT2

 

 

 微生物の分離と培養に基づく微生物群集の研究は、高スループットの全ゲノムショットガンシーケンスベースのメタゲノムに徐々に置き換えられている(Van Dijk et al、2014; Tringe&Rubin、2005でレビュー)。計算メタゲノムの進歩により、ディープメタゲノムシーケンスから派生した数十億のショートシーケンスリードをより大きなフラグメント(コンティグ)にアセンブルし、メタゲノムビニングによってドラフトゲノムにグループ化するツールが作成された(Kang、Rubin&Wang、2016でレビュー)。

最近、いくつかの自動ビニングツールが利用可能になり、メタゲノムビニングのエキサイティングな進歩を目の当たりにした。本著者らのグループは2015年にMetaBAT(Kang et al。、2015)を開発したが、MyCC(Lin&Liao、2016)、MaxBin 2.0(Wu、Simmons&Singer、2015)、MetaWatt-3.5、およびCONCOCT(Alneberg et al。、2014)など、ほぼ同時期に開発されたツールがいくつか存在する(Strous et al、2012)。これらのビニングソフトウェアツールは、シミュレートされたデータまたは実世界のデータでさまざまな範囲の成功を達成している。ただし、実際には、ビニング実験の品質は、基礎となるデータセットの特性、したがってビニングパラメーターの選択に大きく依存している。ユーザーと本著者らは独自に、MetaBATのビニングのパフォーマンスはパラメーターの選択によって大きく異なる可能性があることを観察使た。確立されたパラメーター最適化方法がないため、包括的なビニング結果を得るには、異なるパラメーターセットで複数のビニング実験を実行し、結果をマージする必要がある。たとえば、1,500を超えるメタゲノムデータセットの最近の大規模な研究では、それぞれが異なるパラメーターセットから派生した5つのMetaBATビニング結果をマージすることにより、8,000のドラフトゲノムが取得された(Parks et al、2017, pubmed)。

  CAMIメタゲノムビニングチャレンジの最近の重要な評価(Sczyrba et al、2017)では、MetaBATは数百万のコンティグを持つ大規模なメタゲノムデータセットを処理するためにスケールアップできる最速かつ最も堅牢なソフトウェアである。ただし、さまざまなデータセットに対するビニングパフォーマンスが一貫していないため、精度は最高ではなかった。したがって、この研究では、コアビニングアルゴリズムを完全に新しいアルゴリズムに置き換え、MetaBAT2(元のMetaBATは以後MetaBAT1と呼ぶ)を報告した。新しいアルゴリズムは、いくつかの新しい側面で構成されている:(1)正規化されたテトラヌクレオチド頻度(TNF)スコア、(2)クラスタリングのためのグラフ構造と反復グラフ分割手順、および(3)より小さなコンティグをリクルートするための追加ステップ。さらに、計算の効率が大幅に向上し、計算の増加がプログラムのスケーラビリティに影響を与えない。

 MetaBAT2は、研究コミュニティによってBiocondaパッケージおよびDOE Knowledgebaseプラットフォーム(https://kbase.us)の標準APPとしてパッケージ化されている。 Dockerイメージも利用できる(https://hub.docker.com/r/metabat/metabat)。 (以下略) 

 

 

 

インストール

オーサーらが準備したdockerイメージをpullしてテストした。

依存

  • boost >= 1.59.0 (dev and libs for boost_graph, system, filesystem and serialization)
  • python >= 2.7
  • cmake >= 3.8.2
  • gcc/g++ >= 4.9 or intel >= 18.0.1.163 or llvm >= 8.0

本体 Bitbucket

https://bitbucket.org/berkeleylab/metabat/src/master/

#docker image
docker pull metabat/metabat:latest

#bioconda (link)
conda install -c bioconda -y metabat2

docker run --rm metabat/metabat:latest 

$ docker run --rm metabat/metabat:latest 

/usr/local/bin/runMetaBat.sh <select metabat options> assembly.fa sample1.bam [ sample2.bam ...]

You can specify any metabat options EXCEPT:

  -i --inFile

  -o --outFile

  -a --abdFile

 

Also for depth calculations stage only, you can set the following environmental variables:

 

  PCTID=97          -- reads below this threshold will be discarded

  BADMAP=0          -- output the discarded reads to a sub directory

  MINDEPTH=1.0      -- require contigs to have this minimum depth to be output

  

For full metabat options: metabat2 -h

 

 

 

実行方法

contigと、そのcontigにmappingして得たbamファイルを指定する。

docker run --rm -w $(pwd) -v $(pwd):$(pwd) metabat/metabat:latest \
runMetaBat.sh test/contigs.fa test/contigs-1000.fastq.bam

 

引用

MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies
Dongwan D. Kang, Feng Li, Edward Kirton, Ashleigh Thomas, Rob Egan, Hong An, Zhong Wang

PeerJ. February 6, 2019

https://peerj.com/preprints/27522/

 

関連