包括的なメタゲノム解析パイプライン MAGO

　微生物種はさまざまな環境で重要な役割を果たしているが、メタゲノムデータセットからの高品質のゲノムの生成は、その生態学的および進化のダイナミクスを理解する上で大きな障害となっている。 Metagenome-Assembled Genomes Orchestra（MAGO）は、複数のマーカーに基づく詳細な最尤系統学を介したメタゲノムのアセンブリ、ビニング、ビンの改善、ビンの品質（完全性と汚染）、ビンのアノテーション付け、ビンの進化的配置を統合および簡素化、異なるアミノ酸置換モデルを使用する遺伝子、種境界および操作上の分類単位の描写のためのゲノムの平均ヌクレオチド同一性を分析する計算フレームワークである。 MAGOは、メタゲノムパイプライン全体の合理化された実行、エラーチェック、計算リソースの分散、およびユーザーに合わせたパイプライン処理によって管理されるデータ形式の互換性を提供する。 MAGOは、3つの異なる方法でリリースされたオープンソースソフトウェアパッケージである。HPCの目的と同様に、コモディティハードウェアでMAGOを実行するためのSingularityイメージとDockerコンテナ、およびMAGOの基本構造に完全にアクセスするための仮想マシン、およびソースコードを提供する。 MAGOは拡張の提案を受け入れ、ゲノミクスの研究と教育、および小さなシングルセルプロジェクトまたは大規模で複雑な環境メタゲノムからアセンブリされたゲノムの分子進化の両方での使用に適している。
　微生物種は、さまざまな生物の複雑さによって特徴付けられるさまざまな環境で重要な役割を果たす。これらの環境での微生物群集の研究には、メタゲノム解析と組み合わせたショットガンシーケンスが使用される。メタゲノムまたは全ゲノムのシーケンスデータセットとしてそれぞれ表される複雑なコミュニティまたはシングルセル増幅コミュニティから派生したシーケンス情報の分析と生物学的解釈は困難であり、高度な計算リソースと分析に依存する。これらには、プログラム固有の設定の隣にあるさまざまなソフトウェアとステップ（リードのアセンブリ、ビニング、アノテーション、ビン評価など）、ファイル形式の変換、かなりの時間を必要とする計算ポイント、意図しないバイアスを導入する可能性のある決定ポイントが含まれる（Scyrba et al、2017）。メタゲノムからのゲノムを取得は、元のサンプルの進化的発散、進化のダイナミクス、および豊富さの分析に適した高品質のほぼ完全なゲノムの大規模な回復の可能性を秘めた新しいアプローチである（Meyer et al、2018）。
　計算ツールの進歩により、関連する進化の問題に対処する能力が向上した。ただし、数百のサンプルの計算コストは、数万のCPU時間で測定される。 FastQC（Andrews et al、2010）、fastp（Chen et al、2018）、IDBA-UD（Peng et al、2012）、megaHIT（Li et al、2015）、metaSPAdes（Nurk etなど）、maxBin（Wu et al、2015）、MetaBAT（Kang et al、2015）、CONCOCT（Alneberg et al、2014）、BinSanity（Graham et al、2017）、Dereplication- Aggregation Scoring Tool（Sieber et al、2018）、CheckM（Parks et al、2015）、ezTree（Wu、2018）などの非常に成功したツールの開発。およびメタゲノム情報の重要な評価（CAMI）から学んだ教訓（Szyrba et al、2017; Meyer et al、2018; Fritz et al.2018 ）。細菌および古細菌ドメインの分子進化の分野を説明的なものから実験的なものへと発展させ、新しいメタゲノムアセンブルゲノム（MAG）、環境から明らかになった新しい微生物系統の進化への洞察を提供する。（一部略）

　これまで、シーケンス品質のトリミング、アセンブリ、ビニング、ビンの改善、ビンの品質のステップを介して、シーケンシングプラットフォームからの生の出力（つまり、シーケンスデータセット）をリンクするすべてのステップ、」すなわちコントロール、ビンアノテーション、タンパク質レベルの複数のオルソロガスなマーカー遺伝子に基づくビンの進化的および系統発生的配置に対して、得られたドラフトゲノムの平均ヌクレオチド同一性を通じてコアおよびパンゲノム解析、および種の境界の描写を提供する、効率的でスケーラブルかつ再現可能に統合するソフトウェアの統一部分は存在しない。継続的な取り組みによりフィールド全体の分析標準が現れている（Szyrba et al、2017; Meyer et al、2018; Fritz et al、2018）。しかし、再現可能なフレームワークがないため、これらの標準を受け入れ、解析を実行することは困難である - 既存データの分析（Schloss et al、2009; Parks et al、2017）または過去のデータ（Parks et al、2018; Jain et al、2018）を再マッピングして進化ダイナミクス（Garud et al。2019）に拡張する。
　単一のソフトウェアプラットフォームであるMetagenome Assembled Genomes Orchestra（MAGO）（論文図1、表S1）は、以前に開発されたツールの統合してパフォーマンスを合理化し、互換性を提供することにより、このギャップを埋め、制限（表S2）を克服するために開発された - すなわち、エラーチェックの追加機能、効果的な計算リソースの使用、およびユーザー設定のパイプライン処理（テキストの構成ファイルで指定）によって管理されるデータ形式。 MAGOは現在、CAMISIM（Fritz et al、2018）およびAMBER（Meyer et al。2018）の研究でそれぞれ提案された3つの最も効果的なアセンブラと6つのBinnerを使用している。結果のビンは、追加の（7番目の）ビンナーであるDereplication-Aggregation Scoring Tool（Sieber et al、2018）によってさらに改善され、その品質（％完全性および％汚染）に応じてCheckM（Parks et al。2015）に MIMAG標準を使用（Bowers et al。2017）して評価される。 CheckMは、リファレンスゲノムツリー内の各MAGの位置に固有のオルソロガスタンパク質マーカー遺伝子の幅広いセットと、マーカー遺伝子間のアミノ酸の同一性に基づいて、これらの遺伝子のコロケーションに関する情報を利用する。最後に、作成された高品質のMAGのコレクションを使用して、functionalアノテーションを使用してタンパク質コーディングシングルコピーオルロソロガスマーカー遺伝子を抽出し、ezTreeを使用してMAGO内の異なるアミノ酸置換モデルを持つアミノ酸配列から最尤ツリーを構築する（Wu、2018）。結果のアラインメントファイルをエクスポートして、既存のハイエンドソフトウェアでユーザー固有のツリーを構築できる（例：MEGA（Kumar et al。2018））。コアおよびパンゲノムにアノテーションを付けて計算するために、MAGOはProkka（Seeman、2014）とRoary（Page et al、2015）を統合し、出力（fasta、gbk）をゲノムリシーケンシングの追加のダウンストリーム解析に使用できるようにする（例：Mauve（Darling et al 、2010））。 FastANI（Jain et al、2018）は、ANIのさまざまなしきい値での種の境界とOperational Taxonomic Unit（OTU）の描写を定義するために使用されるMAGのハイスループット平均ヌクレオチドアイデンティティ（ANI）分析に利用される。すべての出力は、追加の検査および他のタイプの分析ツールに容易に利用可能になる（例：MEGA-X（Kumar et al、2018）; GTDB-Tk（Parks et al、2018）; MAGpy（Stewart et al、 2019））。合計で、MAGOは、外部開発のソフトウェア（表S1）（n = 53）とシームレスなワークフローに統合された9000行以上のPythonコードで構成され、パイプライン構成のエラーチェックを実行し、計算リソースの準最適な使用を防止。

　既存のソフトウェアのWebベースの実装の制約と上記の既知のソフトウェアの制限（表S2）を克服するために、MAGOはハイパフォーマンスコンピューティング（HPC）のためのsingularityのイメージ（https://www.sylabs.io/singularity/）およびDockerコンテナ（ https://www.docker.com）、およびVirtualBox（https://www.virtualbox.org/）仮想マシンとして（補足資料と方法で概説）。 Commons Creative Attribution CC-BY ライセンス下（https://creativecommons.org/licenses/）でMAGOをオープンソースソフトウェアパッケージにすることにより、ソフトウェアは無料で、他の研究者による修正に対してオープンになる。プロジェクトWebサイト（http://mago.fe.uni-lj.si）からダウンロードできる（リソースにアクセスするためのユーザー名とパスワードについては、「エディターへのアクセストークン」を参照）。付属の準備済みのパイプラインの例とテストデータセットは、MAGOの使用に関する必要な情報を文書化し、パイプライン設定全体を単一のテキストパイプラインファイルとして研究者間で簡単に共有でき、結果を独立して再現できるため、再現性が向上する（論文図S1-S2）。MAGOの能力は、基礎となるソフトウェア（表S1）とそれぞれの文献の品質によって証明される。 CAMI（Szyrba et al。2017）とEBI （https://www.ebi.ac.uk/ena/data/view/PRJEB8286）にまたがる複雑なモデルデータセットが、MAGOのベンチマークに使用された（表S3、結果は示されていない）。 Genome Assembly Gold-standard Evaluation（GAGE）およびsingle-cell amplified genome project（Salzberg et al、2012; Kogawa et al、2018が現実的な純粋培養データ分析として使用された（表S3;図S3-S7）。最後に、多数の実際のメタゲノムデータセット（n = 106; s = 0.4 TB）が分析された：（i）moose rumen microbiome（Svartströmet al。2017）（図2;図3）および（ii ）longitudinal American pre/term delivery microbiomes（Goltsman et al.2018）（FigureS4- 9）。

（一部略） 90％を超える完全性と汚染が5％未満のMAGのほとんどが、rRNA領域のアセンブリの難しさに関連する問題によることを考えると、これらの高品質MAGは一般的に「ほぼ完成」と説明される（Bowers et al。2017）。（一部略）一般に、MAGOは、10 GBの入力シーケンスデータごとに13のMAG（80％ complete、10％汚染、dereplicated）を回復できた。（以下略）

A schematic representation of steps integrated within MAGO. HPより転載

http://mago.fe.uni-lj.si

インストール

macos10.14とubuntu18.04LTSでテストした。

上記HPからSingulariy、docker、virtual machineのイメージがダウンロードできる。

usage (docker)

http://mago.fe.uni-lj.si/docker_instructions.txt

ここではdockerイメージをダウンロードする。

wget http://mago.fe.uni-lj.si/mago_V2_2_docker.gz

7GBほどある。途中で切れた時は、-cをつけてwgetを再実行することで途中から再開できる。

ダウンロードしたdockerイメージを読み込む（22GB近くスペースが必要）。

docker load -i mago_V2_2_docker.gz

テストラン

１、デモデータのダウンロードと解凍。

wget http://mago.fe.uni-lj.si/mago_demo_V2_2.zip
#解凍
unzip mago_demo_V2_2.zip -d mago_demo_V2_2
#移動
cd mago_demo_V2_2/

デモディレクトリの中身。configファイル、デモ用のfastqおよびデモ用のリファレンスFASTAがある。

f:id:kazumaxneo:20191216212730p:plain

２、データのパス、configファイルを指定して実行。

docker run -itv ${PWD}:/data mago:2.2 \
/data/demo_docker.txt

デモデータのfastqはすべて200MB前後しかないが、パイプラインが長いためかなり時間を要する。mac mini2018で実行すると数時間かかった。

出力

f:id:kazumaxneo:20191216220631p:plain

ラン

実際に使用する場合、configファイルを書き換えて実行する。

出力とfastqのパス

f:id:kazumaxneo:20191222002201p:plain

各ツールの実行の有無やパラメータ設定

f:id:kazumaxneo:20191222002304p:plain

f:id:kazumaxneo:20191222002344p:plain

実際にランするなら、最低限configのfastqパスを修正する必要がある。

f:id:kazumaxneo:20191222123030p:plain

また、genomic distanceを調べるためのリファレンスゲノムディレクトリを指定する。

f:id:kazumaxneo:20191222155551p:plain

パスを指定し、中にリファレンスゲノムのFASTAファイルを収納する。ここではPseudo*.fnaとなっているが、コピーしたリファレンスFASTAのファイル名に合わせて修正する。

準備できたら、fastq、リファレンスfasta、そして編集したconfigファイルのあるディレクトリに移動してMAGOを実行する。

docker run -itv ${PWD}:/data mago:2.2 /data/docker_config.txt

default設定では利用可能な全コアを使ってジョブが開始される。

table.S3に性能評価結果がまとめられています。やや昔の分散メモリサーバを使っているようです。時間は相応に必要なものの、1.2TBメモリが利用できれば280Gのデータも処理できてますね。

引用

Metagenome-Assembled Genomes Orchestra (MAGO): computational framework for high-quality production and large-scale evolutionary analysis of metagenome assembled genomes

Murovec B, Deutsch L, Stres B

Mol Biol Evol. 2019 Oct 21