シングルセルも含めてメタゲノムアセンブリの主要代謝系と炭素・窒素・硫黄関連の機能的アノテーションを行う METABOLIC

2024/03/23 論文引用、出力について説明

　マイクロバイオーム科学の進歩は、メタゲノミクスやシングルセルゲノミクスを用いて混合微生物群集から再構築されたゲノムから、微生物の生態を研究・推論できるようになったことが大きな要因となっている。このようなオミックスに基づく技術は、微生物のゲノムの青写真を読み解き、その機能的能力や活動を解読し、生物地球化学的プロセスにおける役割を再構築することを可能にする。しかし、代謝の予測、代謝物の交換、微生物の相互作用、biogeochemical cyclingへの貢献などを包括的に評価するための標準的なアプローチは、現在のところ存在しない。

　本著者らは、個々の生物や微生物群集の解像度でゲノムを用いて微生物の生態学や生物地球化学を推進するためのスケーラブルなソフトウェア、METABOLIC (METabolic And BiogeOchemistry anaLyses In miCrobes)を発表する。ゲノムスケールのワークフローでは、微生物ゲノムのアノテーション、生化学的に検証された保存タンパク質残基のモチーフ検証、代謝マーカーの同定、代謝パスウェイの解析、個々の生物地球化学的変換や循環への貢献度の計算などを行う。コミュニティスケールのワークフローは、コミュニティ内のゲノムアバンダンスの決定、潜在的な微生物の代謝ハンドオフと代謝物交換、および生物地球化学サイクルに対する微生物コミュニティの貢献度の計算により、ゲノムスケールの分析を補完する。METABOLICは、単離されたゲノム、メタゲノムで構成されたゲノム、あるいはシングルセルゲノムを入力とすることができる。結果は、代謝に関する表のほか、生物地球化学サイクルの可能性、逐次的な代謝変換の表現、新たに定義された指標「MN-score」（metabolic network score）を用いたコミュニティ規模の代謝ネットワークなど、さまざまな形で可視化される。METABOLICは、約100個のゲノムおよびメタゲノムリードの処理に、40スレッドのCPUを使用して約3時間かかり、そのうち最も計算負荷の高いhmmsearchには約45分、約3600個のゲノムのhmmsearchには約5時間かかる。精度、堅牢性、一貫性のテストでは、METABOLICは他のソフトウェアやオンラインサーバーと比較して優れたパフォーマンスを提供している。METABOLICの有用性と汎用性を強調するために，海洋の地下，陸地の地下，牧草地の土壌，深海，淡水湖，廃水，人間の腸から得られた多様なメタゲノムデータセットでその能力を実証した。METABOLICはPerlとRで書かれており，GPLv3の下，https://github.com/AnantharamanLab/METABOLIC，自由に利用することができる。

レポジトリより

METABOLICには、METABOLIC-GとMETABOLIC-Cという2つの主要な実装があります。METABOLIC-G.pl は、入力されたゲノムの代謝プロファイルおよびbiogeochemical cycling diagramsを生成することができ、シーケンス・リードの入力は必要ありません。METABOLIC-C.plはMETABOLIC-G.plと同じ出力をしますが、メタゲノムのリードデータを入力することができるので、コミュニティの代謝に関連する情報を生成します。また、ゲノムカバレッジの計算も可能です。情報は解析され、elemental / biogeochemical cycling pathway（現在はNitrogen, Carbon, Sulfur, and "other"）のダイアグラムが作成されます。

usage

https://github.com/AnantharamanLab/METABOLIC/wiki/METABOLIC-Usage#Metabolic_usage

METABOLIC-GとMETABOLIC-Cの出力の違い

インストール

オーサーが提供しているdockerイメージを使ってテストした。

依存

Perl (>= v5.010)
HMMER (>= v3.1b2)
Prodigal (>= v2.6.3)
Sambamba (>= v0.7.0) (only for METABOLIG-C)
BAMtools (>= v2.4.0) (only for METABOLIG-C)
CoverM (only for METABOLIG-C)
R (>= 3.6.0)
Diamond
Samtools (only for METABOLIG-C)
Bowtie2 (only for METABOLIG-C)
Gtdb-Tk (only for METABOLIG-C)

Github

#docker image (hub link) 10GB程度あるので注意
#4.0 (最新) 
docker pull tin6150/metabolic:4.0

#latest tag
docker pull tin6150/metabolic:latest

gtdbtkのバイナリはインストールされているが、GTDBのデータベースはインストールされていない。gtdbtkも使用する場合、ダウンロードしてパスを通す（manual）。

> perl /opt/METABOLIC/METABOLIC-G.pl -h

DESCRIPTION

Takes a folder containing genome files to generate a profile of their metablic and biogeochemical functions

USAGE

perl METABOLIC-G.pl -t 40 -m-cutoff 0.75 -in Genome_proteins -kofam-db full -o METABOLIC_out

import genome proteins by users

perl METABOLIC-G.pl -t 40 -m-cutoff 0.75 -in-gn Genome_files -kofam-db full -o METABOLIC_out

import genome sequences by users, we will translate them by prodigal

perl METABOLIC-G.pl -test true

use the 5 genomes to test the METABOLIC-G script

OPTIONS

-t or -cpu [integer] The cpu numbers to run the hmmsearch (default: 20)

-m-cutoff or -module-cutoff [float] The cutoff value to assign the presence of a specific KEGG module (KEGG module step present numbers / KEGG module step total number) (default: 0.75)

-m or METABOLIC-dir [string] The directory that you store your METABOLIC database folers and scripts (default: '.')

-in [string] The folder pf given genome faa files [should also give the genome fasta files and genone gene files if the (meta)genome/(meta)transciptome datasets are included]

-in-gn [string] The folder of given genome fasta files (Prodigal will be used to annotate your genomes)

-kofam-db [string] to use the "small" size or "full" size of KOfam database in METABOLIC (default: 'full')

-p or prodigal-method [string] "meta" or "single" for prodigal to annotate the orf

-o or output [string] The METABOLIC output folder (default: current address)

-test [string] The option to test the performance of METABOLIC-G by 5 genomes; "true" or "false" to run the test option. The test option will use 5 CPUs to run the command.

INSTRUCTIONS

GitHub: https://github.com/AnantharamanLab/METABOLIC

OUTPUT

Prodigal-annotated protein and gene files will be given in the input folder.

The METABOLIC result table will be generated.

Biogeochemical pathway diagrams will be generated.

Zhichao Zhou, zczhou2017@gmail.com

Patricia Tran, ptran5@wisc.edu

Karthik Anantharaman, karthik@bact.wisc.edu

Anantharaman Microbiome Laboratory

Department of Bacteriology, University of Wisconsin, Madison

/tmp/Y2TVVzCJQJ (END)

テストラン

データの準備

#donwload data
git clone https://github.com/ChaoLab/METABOLIC_copy.git
tar xfz METABOLIC_copy/5_genomes_test.tgz

入力ディレクトリ

f:id:kazumaxneo:20210528132513p:plain

アノテーションを付けて遺伝子のfasta、タンパク質のfaa、アノテーションのGFF、ゲノムのfastaを同じディレクトリに集める（自分はprokkaを使用した）。

METABOLIC-G.plをランしてみる。

#run image
docker run -it -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v "$PWD":/tmp/home --user=$(id -u):$(id -g) tin6150/metabolic:4.0

#run METABOLIC (30 threads)
cd /tmp/home
perl /opt/METABOLIC/METABOLIC-G.pl -t 30 -in-gn 5_genomes_test/Genome_files -o metabolic_out

テストデータのランには数十分かかった。

出力

f:id:kazumaxneo:20210528132656p:plain

提供したゲノムアセンブリごとにまとめられている。MEROPSはペプチダーゼデータベースからのアノテーション。

METABOLIC_Figures。

Nutrient_Cycling_Diagrams/GCA_005222525.1_ASM522252v1_genomic.draw_carbon_cycle_single.pdf

f:id:kazumaxneo:20210528132755p:plain

Nutrient_Cycling_Diagrams/GCA_000148385.1_ASM14838v1_genomic.draw_nitrogen_cycle_single.pdf

f:id:kazumaxneo:20210528132916p:plain

METABOLIC_result_each_spreadsheet/の複数のTSVファイルからサマリーの.xlsx ファイルが生成される（V4タグのdocker imagesでは出力エラーになる）。

METABOLIC_result.xlsx

1, HMMHitNum sheet

このexcelファイルは複数のシートから構成されている。シートのHMMHitNumでは、MAGごとに３つの列がある（11列目以降）

genome1_Hmm.presence; 各ゲノム内のカスタムHMMプロファイルの同定の有無（緑セルがPresent、赤セルがAbsent）
genome1_.Hit.numbers；各ゲノム内のカスタムHMMプロファイルの同定（ヒット）した回数
genome1_Hit；同定されたタンパク質のID（複数可能）

この３列の繰り返しがMAGの数だけプリントされる。左端の10列には窒素硫黄代謝などのカテゴリー分類、HMMプロファイル名、遺伝子名、そのプロファイルの機能、触媒する反応、基質と生成物、対応するKEGG ID（KO）、検出閾値がプリントされている。

このexcel形式スプレッドシートの他のシートについても簡単説明する。

2, FunctionHit sheet；各機能的タンパク質セットの有無。１ゲノム１列ずつ"Present "または "Absence "として識別される。

3, KEGGModuleHit sheet；KEGGデータベースのKEGG moduleを代謝カテゴリーごとに整理したアノテーション。各ゲノムについて、モジュールの "Present "または "Absence "で識別される。

左端のMxxxはKEGG module ID

4, KEGGModuleStepHit sheet；各ゲノム内のKEGGデータベースのモジュールの有無をモジュールを構成するステップに分けて表示。各ゲノムについて、モジュールの "Present "または "Absence "で識別される。

5, dbCAN2Hit sheet；全ゲノムに対する糖質活性化酵素のdbCAN2からのアノテーション結果（CAZy番号とヒット数）。各ゲノムについて、CAZyが同定された回数と、そのタンパク質を表すORFを示す2つのカラムがある。

6, MEROPSHit sheet；MEROPSのペプチダーゼ検索結果（MEROPSのペプチダーゼ番号とヒット数）。各ゲノムについて、ペプチダーゼが同定された回数と、そのタンパク質を表すORFを示す2つのカラムがある。

出力について

https://github.com/AnantharamanLab/METABOLIC/wiki/METABOLIC-Usage#-metabolic-output-files

METABOLIC-Cでメタゲノムリードの代わりにメタトランスクリプトームリードを使用した場合、遺伝子カバレッジの結果は転写産物カバレッジ[Reads Per Kilobase of transcript, per Million mapped reads (RPKM)に正規化]に置き換えられ、すべてのコミュニティ解析は転写産物カバレッジに基づいて行われる。結果はAll_gene_collections_gene_coverage.txtの代わりに All_gene_collections_transcript_coverage.txtのが生成される。
KEGG_identifier_result/には各MAGごとのKO termアサイン結果が保存される。
METABOLIC-C.plでは、 Sankey diagramのPDFも出力され、与えられた群集の様々な微生物グループからの機能的な寄与の割合を表現する。Functional network diagramsのPDFも出力され、門レベルと生物群集レベルの両方で、生物地球化学的循環ステップの代謝接続を表すダイアグラムが生成される。もう１つ出力されるSequential transformation diagramでは、重要な無機元素と有機化合物の変換に関与すると考えられる微生物のゲノムの数とカバレッジを可視化する。

引用

METABOLIC: High-throughput profiling of microbial genomes for functional traits, biogeochemistry, and community-scale metabolic networks

Zhichao Zhou, Patricia Q. Tran, Adam M. Breister, Yang Liu, Kristopher Kieft, Elise S. Cowley, Ulas Karaoz, Karthik Anantharaman

bioRxiv, Posted November 09, 2020

METABOLIC: high-throughput profiling of microbial genomes for functional traits, metabolism, biogeochemistry, and community-scale functional networks
Zhichao Zhou, Patricia Q. Tran, Adam M. Breister, Yang Liu, Kristopher Kieft, Elise S. Cowley, Ulas Karaoz & Karthik Anantharaman
Microbiome volume 10, Article number: 33 (2022)