macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムスケールの代謝モデルをメタゲノムから直接再構築する metaGEM

2021 7/2, 7/5, 7/6 追記

2021 10/7 論文引用

2021 10/15 ツイート追記

 

 複雑な微生物群集のメタゲノムアセンブルゲノム(MAG)の再構築により、種間・種内の遺伝的多様性が明らかになってきた。しかし、代謝モデリングの取り組みは、ゲノムスケールの代謝モデル(GEM)の再構築とシミュレーションの出発点としてリファレンスゲノムに依存しており、微生物群集に存在する膨大な種内・種間の多様性を無視している傾向がある。ここでは、メタゲノムサンプルから直接、多種生物群集の代謝モデル化を可能にするエンドツーエンドの高度にスケーラブルなパイプラインであるmetaGEM(https://github.com/franciscozorrilla/metaGEM)を紹介する。このパイプラインは、メタゲノムからの原核生物GEMの抽出からコミュニティレベルのフラックスバランスシミュレーションまでのすべてのステップを自動化する。metaGEMパイプラインの機能を実証するために、実験室培養、ヒト腸、植物関連、土壌、海洋のメタゲノムを含む483のサンプルを解析し、14,000以上の原核生物GEMを再構成した。その結果、メタゲノムから再構成されたGEMは、リファレンスゲノムから再構成されたGEMに匹敵する代謝を完全に表現していることを示した。さらに、腸内細菌の代謝交換レベルでの2型糖尿病の病原性レベルの違いを特定することで、メタゲノムGEMが種内代謝の多様性を捉えていることを実証した。このパイプラインは、個々のメタゲノムから直接代謝モデルを再構築することができ、再構築された代謝モデルのリソースを提供し、疾患状態に関連するマイクロバイオームのコミュニティレベルのモデリングを紹介することで、メカニズム論的仮説の生成を可能にしている。

 

Workflow

Core

  1. fastpによるクオリティーフィルタリング
  2. megahitによるアセンブリ
  3. CONCOCT、MaxBin2、MetaBAT2によるビンセットの作成
  4. metaWRAPによるビンのリファインとリアセンブル
  5. GTDB-tkによる分類学上の割り当て
  6. bwaおよびsamtoolsによる相対的な存在量の確認
  7. CarveMeおよびmemoteによるゲノムスケールの代謝モデルの再構築と評価
  8. SMETANAによる種の代謝結合解析

Bonus

  1. GRiD、SMEG、CoPTRによる成長速度推定
  2. roaryによるパンゲノム解析
  3. EukRepおよびEukCCによる真核生物のドラフトビン
  4. アクティブな開発 

 

Wiki

https://github.com/franciscozorrilla/metaGEM/wiki

 

2021 10/7

 

 

インストール

ubuntu18.04LTSでテストした。

本体 Github

初期は仮想環境を切り替えながらインストールする方式だったが、インストールのbashスクリプトが提供された。condaが使える環境でbashスクリプトを実行する。GTDBのデータベースがダウンロードされるので数十GB以上の空きスペースが必要。

さらに、google colabで簡易テストもできるようになっている(レポジトリ参照)。

#snakemakeがないなら導入
mamba install -c conda-forge -c bioconda -y snakemake

git clone https://github.com/franciscozorrilla/metaGEM.git && cd metaGEM && rm -r .git
bash env_setup.sh
#仮想環境名"metawrap"、"metagem"、”prokkaroary”がセットアップされる。

#check installation
bash metaGEM.sh --task check

#続いてcheckMのデータベースをダウンロード
conda activate metawrap
checkm data setRoot <db_setup_path>

bash ../metaGEM.sh

 

A Snakemake-based metagenomics pipeline desinged to study the metabolism of microbial communities using high performance computer clusters.

 

Usage: bash metaGEM.sh [-t|--task TASK] 

                [-j|--nJobs NUMBER OF JOBS] 

                [-c|--cores NUMBER OF CORES] 

                [-m|--mem GB RAM] 

                [-h|--hours MAX RUNTIME]

 

Snakefile wrapper/parser for metaGEM. 

 

 Options:

  -t, --task        Specify task to complete:

 

                        SETUP

                            createFolders

                            downloadToy

                            organizeData

 

                        WORKFLOW

                            fastp 

                            megahit 

                            crossMap 

                            concoct 

                            metabat

                            maxbin 

                            binRefine 

                            binReassemble 

                            extractProteinBins

                            carveme

                            memote

                            organizeGEMs

                            smetana

                            extractDnaBins

                            gtdbtk

                            abundance 

                            grid

                            prokka

                            roary

 

                        VISUALIZATION (in development)

                            qfilterVis

                            assemblyVis

                            binningVis

                            taxonomyVis

                            modelVis

                            interactionVis

                            growthVis

 

  -j, --nJobs       Specify number of jobs to run in parallel

  -c, --nCores      Specify number of cores per job

  -m, --mem         Specify memory in GB required for job

  -h, --hours       Specify number of hours to allocated to job runtime

 

Suggested workflow:

 

    0. metaGEM setup

    1. Quality filter reads with fastp

    2. Assembly with megahit

    3. Draft bin sets with CONCOCT,MaxBin2, and MetaBAT2

    4. Refine & reassemble bins with metaWRAP

    5. Taxonomic assignment with GTDB-tk

    6. Relative abundances with bwa and samtools

    7. Reconstruct & evaluate genome-scale metabolic models with CarveMe and memote

    8. Species metabolic coupling analysis with SMETANA

    9. Growth rate estimation with GRiD

    10. Pangenome analysis with roary

    11. Eukaryotic draft bins with EukRep and EukCC

 

 

e.g. to submit 10 short read quality filtering jobs with 2 cores + 4 GB RAM each and maximum runtime of 1 hour:

     bash metaGEM.sh -t fastp -j 10 -c 2 -m 4 -h 1

 

 

 

テストラン

fastqはdataset/の中のサブフォルダーに保存されている必要がある。ファイル名は{SAMPLE ID}_R{1|2}.fastq.gzとなっている必要がある。 

dataset/

f:id:kazumaxneo:20210705221230p:plain

dataset/sample1/

f:id:kazumaxneo:20210705221240p:plain

準備ができたらランする。 

bash metaGEM.sh -t fastp -j 2 -c 2 -m 20 -h 2

 

コマンドについてはGoogle colabのコード(.ipynb)が参考になります。オーサーが提供しているGoogle colabのコードを試してみました。現状では、metaGEMのインストール、前処理からde novoアセンブルまで書かれています。

f:id:kazumaxneo:20210706175120p:plain

セルを順番に実行していくだけです(途中にyes/noがあるステップもあるので、表示が出たらレスポンスする)。テストデータ3サンプル全てアセンブルまで正常に完了しています(*1)。

 

 

引用

metaGEM: reconstruction of genome scale metabolic models directly from metagenomes
Francisco Zorrilla, Kiran R. Patil, Aleksej Zelezniak
bioRxiv 2020.12.31.424982; doi: https://doi.org/10.1101/2020.12.31.424982

 

2021 10/7

metaGEM: reconstruction of genome scale metabolic models directly from metagenomes  Francisco Zorrilla,  Filip Buric,  Kiran R Patil,  Aleksej Zelezniak
Nucleic Acids Research, Published: 06 October 2021

 

関連


*1

試した時は8時間ほどかかりました。Google colabのコードは自分のアカウントのGoogle driveストレージにコピーして、そこで実行することもできます。