マイクロバイオーム科学の進歩は、メタゲノミクスやシングルセルゲノミクスを用いて混合微生物群集から再構築されたゲノムから、微生物の生態を研究・推論できるようになったことが大きな要因となっている。このようなオミックスに基づく技術は、微生物のゲノムの青写真を読み解き、その機能的能力や活動を解読し、生物地球化学的プロセスにおける役割を再構築することを可能にする。しかし、代謝の予測、代謝物の交換、微生物の相互作用、biogeochemical cyclingへの貢献などを包括的に評価するための標準的なアプローチは、現在のところ存在しない。
本著者らは、個々の生物や微生物群集の解像度でゲノムを用いて微生物の生態学や生物地球化学を推進するためのスケーラブルなソフトウェア、METABOLIC (METabolic And BiogeOchemistry anaLyses In miCrobes)を発表する。ゲノムスケールのワークフローでは、微生物ゲノムのアノテーション、生化学的に検証された保存タンパク質残基のモチーフ検証、代謝マーカーの同定、代謝パスウェイの解析、個々の生物地球化学的変換や循環への貢献度の計算などを行う。コミュニティスケールのワークフローは、コミュニティ内のゲノムアバンダンスの決定、潜在的な微生物の代謝ハンドオフと代謝物交換、および生物地球化学サイクルに対する微生物コミュニティの貢献度の計算により、ゲノムスケールの分析を補完する。METABOLICは、単離されたゲノム、メタゲノムで構成されたゲノム、あるいはシングルセルゲノムを入力とすることができる。結果は、代謝に関する表のほか、生物地球化学サイクルの可能性、逐次的な代謝変換の表現、新たに定義された指標「MN-score」(metabolic network score)を用いたコミュニティ規模の代謝ネットワークなど、さまざまな形で可視化される。METABOLICは、約100個のゲノムおよびメタゲノムリードの処理に、40スレッドのCPUを使用して約3時間かかり、そのうち最も計算負荷の高いhmmsearchには約45分、約3600個のゲノムのhmmsearchには約5時間かかる。精度、堅牢性、一貫性のテストでは、METABOLICは他のソフトウェアやオンラインサーバーと比較して優れたパフォーマンスを提供している。METABOLICの有用性と汎用性を強調するために,海洋の地下,陸地の地下,牧草地の土壌,深海,淡水湖,廃水,人間の腸から得られた多様なメタゲノムデータセットでその能力を実証した。METABOLICはPerlとRで書かれており,GPLv3の下,https://github.com/AnantharamanLab/METABOLIC,自由に利用することができる。
レポジトリより
METABOLICには、METABOLIC-GとMETABOLIC-Cという2つの主要な実装があります。METABOLIC-G.pl は、入力されたゲノムの代謝プロファイルおよびbiogeochemical cycling diagramsを生成することができ、シーケンス・リードの入力は必要ありません。METABOLIC-C.plはMETABOLIC-G.plと同じ出力をしますが、メタゲノムのリードデータを入力することができるので、コミュニティの代謝に関連する情報を生成します。また、ゲノムカバレッジの計算も可能です。情報は解析され、elemental / biogeochemical cycling pathway(現在はNitrogen, Carbon, Sulfur, and "other")のダイアグラムが作成されます。
インストール
オーサーが提供しているdockerイメージを使ってテストした。
依存
- Perl (>= v5.010)
- HMMER (>= v3.1b2)
- Prodigal (>= v2.6.3)
- Sambamba (>= v0.7.0) (only for METABOLIG-C)
- BAMtools (>= v2.4.0) (only for METABOLIG-C)
- CoverM (only for METABOLIG-C)
- R (>= 3.6.0)
- Diamond
- Samtools (only for METABOLIG-C)
- Bowtie2 (only for METABOLIG-C)
- Gtdb-Tk (only for METABOLIG-C)
#docker image (hub link) 10GB程度あるので注意
#4.0 (最新)
docker pull tin6150/metabolic:4.0
#latest tag
docker pull tin6150/metabolic:latest
gtdbtkのバイナリはインストールされているが、GTDBのデータベースはインストールされていない。gtdbtkも使用する場合、ダウンロードしてパスを通す(manual)。
> perl /opt/METABOLIC/METABOLIC-G.pl -h
DESCRIPTION
Takes a folder containing genome files to generate a profile of their metablic and biogeochemical functions
USAGE
perl METABOLIC-G.pl -t 40 -m-cutoff 0.75 -in Genome_proteins -kofam-db full -o METABOLIC_out
import genome proteins by users
perl METABOLIC-G.pl -t 40 -m-cutoff 0.75 -in-gn Genome_files -kofam-db full -o METABOLIC_out
import genome sequences by users, we will translate them by prodigal
perl METABOLIC-G.pl -test true
use the 5 genomes to test the METABOLIC-G script
OPTIONS
-t or -cpu [integer] The cpu numbers to run the hmmsearch (default: 20)
-m-cutoff or -module-cutoff [float] The cutoff value to assign the presence of a specific KEGG module (KEGG module step present numbers / KEGG module step total number) (default: 0.75)
-m or METABOLIC-dir [string] The directory that you store your METABOLIC database folers and scripts (default: '.')
-in [string] The folder pf given genome faa files [should also give the genome fasta files and genone gene files if the (meta)genome/(meta)transciptome datasets are included]
-in-gn [string] The folder of given genome fasta files (Prodigal will be used to annotate your genomes)
-kofam-db [string] to use the "small" size or "full" size of KOfam database in METABOLIC (default: 'full')
-p or prodigal-method [string] "meta" or "single" for prodigal to annotate the orf
-o or output [string] The METABOLIC output folder (default: current address)
-test [string] The option to test the performance of METABOLIC-G by 5 genomes; "true" or "false" to run the test option. The test option will use 5 CPUs to run the command.
INSTRUCTIONS
GitHub: https://github.com/AnantharamanLab/METABOLIC
OUTPUT
Prodigal-annotated protein and gene files will be given in the input folder.
The METABOLIC result table will be generated.
Biogeochemical pathway diagrams will be generated.
COPYRIGHT
Zhichao Zhou, zczhou2017@gmail.com
Patricia Tran, ptran5@wisc.edu
Karthik Anantharaman, karthik@bact.wisc.edu
Anantharaman Microbiome Laboratory
Department of Bacteriology, University of Wisconsin, Madison
/tmp/Y2TVVzCJQJ (END)
テストラン
データの準備
#donwload data
git clone https://github.com/ChaoLab/METABOLIC_copy.git
tar xfz METABOLIC_copy/5_genomes_test.tgz
入力ディレクトリ
METABOLIC-G.plをランしてみる。
#run image
docker run -it -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v "$PWD":/tmp/home --user=$(id -u):$(id -g) tin6150/metabolic:4.0
#run METABOLIC (30 threads)
cd /tmp/home
perl /opt/METABOLIC/METABOLIC-G.pl -t 30 -in-gn 5_genomes_test/Genome_files -o metabolic_out
テストデータのランには数十分かかった。
出力
提供したゲノムアセンブリごとにまとめられている。MEROPSはペプチダーゼデータベースからのアノテーション。
METABOLIC_Figuresを2つほど開いてみる。
Nutrient_Cycling_Diagrams/GCA_005222525.1_ASM522252v1_genomic.draw_carbon_cycle_single.pdf
Nutrient_Cycling_Diagrams/GCA_000148385.1_ASM14838v1_genomic.draw_nitrogen_cycle_single.pdf
サマリーの.xlsx ファイルはV4タグのdocker imagesでは出力エラーになりますが、元のTSVファイルはMETABOLIC_result_each_spreadsheet 以下に出力されています。
METABOLIC_result_each_spreadsheet/METABOLIC_result_worksheet1.tsv
引用
METABOLIC: High-throughput profiling of microbial genomes for functional traits, biogeochemistry, and community-scale metabolic networks
Zhichao Zhou, Patricia Q. Tran, Adam M. Breister, Yang Liu, Kristopher Kieft, Elise S. Cowley, Ulas Karaoz, Karthik Anantharaman
bioRxiv, Posted November 09, 2020
関連