ゲノムスケールの代謝モデルをメタゲノムから直接再構築する metaGEM

2021 7/2, 7/5, 7/6 追記

2021 10/7 論文引用

2021 10/15 ツイート追記

　複雑な微生物群集のメタゲノムアセンブルゲノム（MAG）の再構築により、種間・種内の遺伝的多様性が明らかになってきた。しかし、代謝モデリングの取り組みは、ゲノムスケールの代謝モデル（GEM）の再構築とシミュレーションの出発点としてリファレンスゲノムに依存しており、微生物群集に存在する膨大な種内・種間の多様性を無視している傾向がある。ここでは、メタゲノムサンプルから直接、多種生物群集の代謝モデル化を可能にするエンドツーエンドの高度にスケーラブルなパイプラインであるmetaGEM（https://github.com/franciscozorrilla/metaGEM）を紹介する。このパイプラインは、メタゲノムからの原核生物GEMの抽出からコミュニティレベルのフラックスバランスシミュレーションまでのすべてのステップを自動化する。metaGEMパイプラインの機能を実証するために、実験室培養、ヒト腸、植物関連、土壌、海洋のメタゲノムを含む483のサンプルを解析し、14,000以上の原核生物GEMを再構成した。その結果、メタゲノムから再構成されたGEMは、リファレンスゲノムから再構成されたGEMに匹敵する代謝を完全に表現していることを示した。さらに、腸内細菌の代謝交換レベルでの2型糖尿病の病原性レベルの違いを特定することで、メタゲノムGEMが種内代謝の多様性を捉えていることを実証した。このパイプラインは、個々のメタゲノムから直接代謝モデルを再構築することができ、再構築された代謝モデルのリソースを提供し、疾患状態に関連するマイクロバイオームのコミュニティレベルのモデリングを紹介することで、メカニズム論的仮説の生成を可能にしている。

Workflow

Core

fastpによるクオリティーフィルタリング
megahitによるアセンブリ
CONCOCT、MaxBin2、MetaBAT2によるビンセットの作成
metaWRAPによるビンのリファインとリアセンブル
GTDB-tkによる分類学上の割り当て
bwaおよびsamtoolsによる相対的な存在量の確認
CarveMeおよびmemoteによるゲノムスケールの代謝モデルの再構築と評価
SMETANAによる種の代謝結合解析

Bonus

GRiD、SMEG、CoPTRによる成長速度推定
roaryによるパンゲノム解析
EukRepおよびEukCCによる真核生物のドラフトビン
アクティブな開発

Wiki

https://github.com/franciscozorrilla/metaGEM/wiki

2021 10/7

In the following series of tweets I will discuss our recent publication where we developed the metaGEM 💎 pipeline for reconstructing metagenome assembled genomes (MAGs) & genome scale metabolic models (GEMs) from metagenomes. Grab a drink, it’s going to be a long one ☕️ (1/n)
— Francisco Zorrilla (@metagenomez) 2021年10月14日

Very exciting to see the metaGEM pipeline published 💎 thread coming soon 🧵 https://t.co/098SwhkC5V @kiran_r_patil @AZelezniak @spinnylepton
— Francisco Zorrilla (@metagenomez) 2021年10月7日

インストール

ubuntu18.04LTSでテストした。

本体　Github

初期は仮想環境を切り替えながらインストールする方式だったが、インストールのbash スクリプトが提供された。condaが使える環境でbash スクリプトを実行する。GTDBのデータベースがダウンロードされるので数十GB以上の空きスペースが必要。

さらに、google colabで簡易テストもできるようになっている（レポジトリ参照）。

#snakemakeがないなら導入
mamba install -c conda-forge -c bioconda -y snakemake

git clone https://github.com/franciscozorrilla/metaGEM.git && cd metaGEM && rm -r .git
bash env_setup.sh
#仮想環境名"metawrap"、"metagem"、”prokkaroary”がセットアップされる。

#check installation
bash metaGEM.sh --task check

#続いてcheckMのデータベースをダウンロード
conda activate metawrap
checkm data setRoot <db_setup_path>

> bash ../metaGEM.sh

A Snakemake-based metagenomics pipeline desinged to study the metabolism of microbial communities using high performance computer clusters.

Usage: bash metaGEM.sh [-t|--task TASK]

[-j|--nJobs NUMBER OF JOBS]

[-c|--cores NUMBER OF CORES]

[-m|--mem GB RAM]

[-h|--hours MAX RUNTIME]

Snakefile wrapper/parser for metaGEM.

Options:

-t, --task Specify task to complete:

SETUP

createFolders

downloadToy

organizeData

WORKFLOW

fastp

megahit

crossMap

concoct

metabat

maxbin

binRefine

binReassemble

extractProteinBins

carveme

memote

organizeGEMs

smetana

extractDnaBins

gtdbtk

abundance

grid

prokka

roary

VISUALIZATION (in development)

qfilterVis

assemblyVis

binningVis

taxonomyVis

modelVis

interactionVis

growthVis

-j, --nJobs Specify number of jobs to run in parallel

-c, --nCores Specify number of cores per job

-m, --mem Specify memory in GB required for job

-h, --hours Specify number of hours to allocated to job runtime

Suggested workflow:

0. metaGEM setup

1. Quality filter reads with fastp

2. Assembly with megahit

3. Draft bin sets with CONCOCT,MaxBin2, and MetaBAT2

4. Refine & reassemble bins with metaWRAP

5. Taxonomic assignment with GTDB-tk

6. Relative abundances with bwa and samtools

7. Reconstruct & evaluate genome-scale metabolic models with CarveMe and memote

8. Species metabolic coupling analysis with SMETANA

9. Growth rate estimation with GRiD

10. Pangenome analysis with roary

11. Eukaryotic draft bins with EukRep and EukCC

e.g. to submit 10 short read quality filtering jobs with 2 cores + 4 GB RAM each and maximum runtime of 1 hour:

bash metaGEM.sh -t fastp -j 10 -c 2 -m 4 -h 1

テストラン

fastqはdataset/の中のサブフォルダーに保存されている必要がある。ファイル名は{SAMPLE ID}_R{1|2}.fastq.gzとなっている必要がある。

dataset/

f:id:kazumaxneo:20210705221230p:plain

dataset/sample1/

f:id:kazumaxneo:20210705221240p:plain

準備ができたらランする。

bash metaGEM.sh -t fastp -j 2 -c 2 -m 20 -h 2

コマンドについてはGoogle colabのコード（.ipynb）が参考になります。オーサーが提供しているGoogle colabのコードを試してみました。現状では、metaGEMのインストール、前処理からde novoアセンブルまで書かれています。

f:id:kazumaxneo:20210706175120p:plain

セルを順番に実行していくだけです（途中にyes/noがあるステップもあるので、表示が出たらレスポンスする）。テストデータ３サンプル全てアセンブルまで正常に完了しています（*１）。

引用

metaGEM: reconstruction of genome scale metabolic models directly from metagenomes
Francisco Zorrilla, Kiran R. Patil, Aleksej Zelezniak
bioRxiv 2020.12.31.424982; doi: https://doi.org/10.1101/2020.12.31.424982

2021 10/7

metaGEM: reconstruction of genome scale metabolic models directly from metagenomes Francisco Zorrilla, Filip Buric, Kiran R Patil, Aleksej Zelezniak
Nucleic Acids Research, Published: 06 October 2021