2021 7/2, 7/5, 7/6 追記
2021 10/7 論文引用
2021 10/15 ツイート追記
複雑な微生物群集のメタゲノムアセンブルゲノム(MAG)の再構築により、種間・種内の遺伝的多様性が明らかになってきた。しかし、代謝モデリングの取り組みは、ゲノムスケールの代謝モデル(GEM)の再構築とシミュレーションの出発点としてリファレンスゲノムに依存しており、微生物群集に存在する膨大な種内・種間の多様性を無視している傾向がある。ここでは、メタゲノムサンプルから直接、多種生物群集の代謝モデル化を可能にするエンドツーエンドの高度にスケーラブルなパイプラインであるmetaGEM(https://github.com/franciscozorrilla/metaGEM)を紹介する。このパイプラインは、メタゲノムからの原核生物GEMの抽出からコミュニティレベルのフラックスバランスシミュレーションまでのすべてのステップを自動化する。metaGEMパイプラインの機能を実証するために、実験室培養、ヒト腸、植物関連、土壌、海洋のメタゲノムを含む483のサンプルを解析し、14,000以上の原核生物GEMを再構成した。その結果、メタゲノムから再構成されたGEMは、リファレンスゲノムから再構成されたGEMに匹敵する代謝を完全に表現していることを示した。さらに、腸内細菌の代謝交換レベルでの2型糖尿病の病原性レベルの違いを特定することで、メタゲノムGEMが種内代謝の多様性を捉えていることを実証した。このパイプラインは、個々のメタゲノムから直接代謝モデルを再構築することができ、再構築された代謝モデルのリソースを提供し、疾患状態に関連するマイクロバイオームのコミュニティレベルのモデリングを紹介することで、メカニズム論的仮説の生成を可能にしている。
Workflow
Core
- fastpによるクオリティーフィルタリング
- megahitによるアセンブリ
- CONCOCT、MaxBin2、MetaBAT2によるビンセットの作成
- metaWRAPによるビンのリファインとリアセンブル
- GTDB-tkによる分類学上の割り当て
- bwaおよびsamtoolsによる相対的な存在量の確認
- CarveMeおよびmemoteによるゲノムスケールの代謝モデルの再構築と評価
- SMETANAによる種の代謝結合解析
Bonus
- GRiD、SMEG、CoPTRによる成長速度推定
- roaryによるパンゲノム解析
- EukRepおよびEukCCによる真核生物のドラフトビン
- アクティブな開発
https://github.com/franciscozorrilla/metaGEM/wiki
2021 10/7
In the following series of tweets I will discuss our recent publication where we developed the metaGEM 💎 pipeline for reconstructing metagenome assembled genomes (MAGs) & genome scale metabolic models (GEMs) from metagenomes. Grab a drink, it’s going to be a long one ☕️ (1/n)
— Francisco Zorrilla (@metagenomez) 2021年10月14日
Very exciting to see the metaGEM pipeline published 💎 thread coming soon 🧵 https://t.co/098SwhkC5V @kiran_r_patil @AZelezniak @spinnylepton
— Francisco Zorrilla (@metagenomez) 2021年10月7日
インストール
ubuntu18.04LTSでテストした。
本体 Github
初期は仮想環境を切り替えながらインストールする方式だったが、インストールのbashスクリプトが提供された。condaが使える環境でbashスクリプトを実行する。GTDBのデータベースがダウンロードされるので数十GB以上の空きスペースが必要。
さらに、google colabで簡易テストもできるようになっている(レポジトリ参照)。
#snakemakeがないなら導入
mamba install -c conda-forge -c bioconda -y snakemake
git clone https://github.com/franciscozorrilla/metaGEM.git && cd metaGEM && rm -r .git
bash env_setup.sh
#仮想環境名"metawrap"、"metagem"、”prokkaroary”がセットアップされる。
#check installation
bash metaGEM.sh --task check
#続いてcheckMのデータベースをダウンロード
conda activate metawrap
checkm data setRoot <db_setup_path>
> bash ../metaGEM.sh
A Snakemake-based metagenomics pipeline desinged to study the metabolism of microbial communities using high performance computer clusters.
Usage: bash metaGEM.sh [-t|--task TASK]
[-j|--nJobs NUMBER OF JOBS]
[-c|--cores NUMBER OF CORES]
[-m|--mem GB RAM]
[-h|--hours MAX RUNTIME]
Snakefile wrapper/parser for metaGEM.
Options:
-t, --task Specify task to complete:
SETUP
createFolders
downloadToy
organizeData
WORKFLOW
fastp
megahit
crossMap
concoct
metabat
maxbin
binRefine
binReassemble
extractProteinBins
carveme
memote
organizeGEMs
smetana
extractDnaBins
gtdbtk
abundance
grid
prokka
roary
VISUALIZATION (in development)
qfilterVis
assemblyVis
binningVis
taxonomyVis
modelVis
interactionVis
growthVis
-j, --nJobs Specify number of jobs to run in parallel
-c, --nCores Specify number of cores per job
-m, --mem Specify memory in GB required for job
-h, --hours Specify number of hours to allocated to job runtime
Suggested workflow:
0. metaGEM setup
1. Quality filter reads with fastp
2. Assembly with megahit
3. Draft bin sets with CONCOCT,MaxBin2, and MetaBAT2
4. Refine & reassemble bins with metaWRAP
5. Taxonomic assignment with GTDB-tk
6. Relative abundances with bwa and samtools
7. Reconstruct & evaluate genome-scale metabolic models with CarveMe and memote
8. Species metabolic coupling analysis with SMETANA
9. Growth rate estimation with GRiD
10. Pangenome analysis with roary
11. Eukaryotic draft bins with EukRep and EukCC
e.g. to submit 10 short read quality filtering jobs with 2 cores + 4 GB RAM each and maximum runtime of 1 hour:
bash metaGEM.sh -t fastp -j 10 -c 2 -m 4 -h 1
テストラン
fastqはdataset/の中のサブフォルダーに保存されている必要がある。ファイル名は{SAMPLE ID}_R{1|2}.fastq.gzとなっている必要がある。
dataset/
dataset/sample1/
準備ができたらランする。
bash metaGEM.sh -t fastp -j 2 -c 2 -m 20 -h 2
コマンドについてはGoogle colabのコード(.ipynb)が参考になります。オーサーが提供しているGoogle colabのコードを試してみました。現状では、metaGEMのインストール、前処理からde novoアセンブルまで書かれています。
セルを順番に実行していくだけです(途中にyes/noがあるステップもあるので、表示が出たらレスポンスする)。テストデータ3サンプル全てアセンブルまで正常に完了しています(*1)。
引用
metaGEM: reconstruction of genome scale metabolic models directly from metagenomes
Francisco Zorrilla, Kiran R. Patil, Aleksej Zelezniak
bioRxiv 2020.12.31.424982; doi: https://doi.org/10.1101/2020.12.31.424982
2021 10/7
metaGEM: reconstruction of genome scale metabolic models directly from metagenomes Francisco Zorrilla, Filip Buric, Kiran R Patil, Aleksej Zelezniak
Nucleic Acids Research, Published: 06 October 2021
関連
*1
試した時は8時間ほどかかりました。Google colabのコードは自分のアカウントのGoogle driveストレージにコピーして、そこで実行することもできます。