macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(シングルセル)メタゲノムアセンブリの機能的アノテーションを行う METABOLIC

 

 マイクロバイオーム科学の進歩は、メタゲノミクスやシングルセルゲノミクスを用いて混合微生物群集から再構築されたゲノムから、微生物の生態を研究・推論できるようになったことが大きな要因となっている。このようなオミックスに基づく技術は、微生物のゲノムの青写真を読み解き、その機能的能力や活動を解読し、生物地球化学的プロセスにおける役割を再構築することを可能にする。しかし、代謝の予測、代謝物の交換、微生物の相互作用、biogeochemical cyclingへの貢献などを包括的に評価するための標準的なアプローチは、現在のところ存在しない。

 本著者らは、個々の生物や微生物群集の解像度でゲノムを用いて微生物の生態学や生物地球化学を推進するためのスケーラブルなソフトウェア、METABOLIC (METabolic And BiogeOchemistry anaLyses In miCrobes)を発表する。ゲノムスケールのワークフローでは、微生物ゲノムのアノテーション、生化学的に検証された保存タンパク質残基のモチーフ検証、代謝マーカーの同定、代謝パスウェイの解析、個々の生物地球化学的変換や循環への貢献度の計算などを行う。コミュニティスケールのワークフローは、コミュニティ内のゲノムアバンダンスの決定、潜在的な微生物の代謝ハンドオフと代謝物交換、および生物地球化学サイクルに対する微生物コミュニティの貢献度の計算により、ゲノムスケールの分析を補完する。METABOLICは、単離されたゲノム、メタゲノムで構成されたゲノム、あるいはシングルセルゲノムを入力とすることができる。結果は、代謝に関する表のほか、生物地球化学サイクルの可能性、逐次的な代謝変換の表現、新たに定義された指標「MN-score」(metabolic network score)を用いたコミュニティ規模の代謝ネットワークなど、さまざまな形で可視化される。METABOLICは、約100個のゲノムおよびメタゲノムリードの処理に、40スレッドのCPUを使用して約3時間かかり、そのうち最も計算負荷の高いhmmsearchには約45分、約3600個のゲノムのhmmsearchには約5時間かかる。精度、堅牢性、一貫性のテストでは、METABOLICは他のソフトウェアやオンラインサーバーと比較して優れたパフォーマンスを提供している。METABOLICの有用性と汎用性を強調するために,海洋の地下,陸地の地下,牧草地の土壌,深海,淡水湖,廃水,人間の腸から得られた多様なメタゲノムデータセットでその能力を実証した。METABOLICはPerlとRで書かれており,GPLv3の下,https://github.com/AnantharamanLab/METABOLIC,自由に利用することができる。

 

レポジトリより

METABOLICには、METABOLIC-GとMETABOLIC-Cという2つの主要な実装があります。METABOLIC-G.pl は、入力されたゲノムの代謝プロファイルおよびbiogeochemical cycling diagramsを生成することができ、シーケンス・リードの入力は必要ありません。METABOLIC-C.plはMETABOLIC-G.plと同じ出力をしますが、メタゲノムのリードデータを入力することができるので、コミュニティの代謝に関連する情報を生成します。また、ゲノムカバレッジの計算も可能です。情報は解析され、elemental / biogeochemical cycling pathway(現在はNitrogen, Carbon, Sulfur, and "other")のダイアグラムが作成されます。

 

インストール 

オーサーが提供しているdockerイメージを使ってテストした。

依存

  • Perl (>= v5.010)
  • HMMER (>= v3.1b2)
  • Prodigal (>= v2.6.3)
  • Sambamba (>= v0.7.0) (only for METABOLIG-C)
  • BAMtools (>= v2.4.0) (only for METABOLIG-C)
  • CoverM (only for METABOLIG-C)
  • R (>= 3.6.0)
  • Diamond
  • Samtools (only for METABOLIG-C)
  • Bowtie2 (only for METABOLIG-C)
  • Gtdb-Tk (only for METABOLIG-C)

Github

#docker image (hub link) 10GB程度あるので注意
#4.0 (最新)
docker pull tin6150/metabolic:4.0

#latest tag
docker pull tin6150/metabolic:latest

gtdbtkのバイナリはインストールされているが、GTDBのデータベースはインストールされていない。gtdbtkも使用する場合、ダウンロードしてパスを通す(manual)。

perl /opt/METABOLIC/METABOLIC-G.pl -h

DESCRIPTION

            Takes a folder containing genome files to generate a profile of their metablic and biogeochemical functions

 

USAGE

            perl METABOLIC-G.pl -t 40 -m-cutoff 0.75 -in Genome_proteins -kofam-db full -o METABOLIC_out

                    import genome proteins by users

        

            perl METABOLIC-G.pl -t 40 -m-cutoff 0.75 -in-gn Genome_files -kofam-db full -o METABOLIC_out

                    import genome sequences by users, we will translate them by prodigal

                

                    perl METABOLIC-G.pl -test true

                    use the 5 genomes to test the METABOLIC-G script

 

OPTIONS

            -t         or -cpu            [integer] The cpu numbers to run the hmmsearch (default: 20)

            -m-cutoff  or -module-cutoff  [float]   The cutoff value to assign the presence of a specific KEGG module (KEGG module step present numbers / KEGG module step total number) (default: 0.75) 

            -m         or METABOLIC-dir   [string]  The directory that you store your METABOLIC database folers and scripts (default: '.') 

            -in                           [string]  The folder pf given genome faa files [should also give the genome fasta files and genone gene files if the (meta)genome/(meta)transciptome datasets are included]

            -in-gn                        [string]  The folder of given genome fasta files (Prodigal will be used to annotate your genomes)

            -kofam-db                     [string]  to use the "small" size or "full" size of KOfam database in METABOLIC (default: 'full')

            -p         or prodigal-method [string]  "meta" or "single" for prodigal to annotate the orf

            -o         or output          [string]  The METABOLIC output folder (default: current address)

            -test                  [string]  The option to test the performance of METABOLIC-G by 5 genomes; "true" or "false" to run the test option.      The test option will use 5 CPUs to run the command.

 

INSTRUCTIONS

            GitHub: https://github.com/AnantharamanLab/METABOLIC

 

OUTPUT

            Prodigal-annotated protein and gene files will be given in the input folder.

            The METABOLIC result table will be generated.

            Biogeochemical pathway diagrams will be generated.

 

COPYRIGHT

            Zhichao Zhou, zczhou2017@gmail.com

            Patricia Tran, ptran5@wisc.edu

            Karthik Anantharaman, karthik@bact.wisc.edu

            Anantharaman Microbiome Laboratory

            Department of Bacteriology, University of Wisconsin, Madison

 

/tmp/Y2TVVzCJQJ (END)

 

 

テストラン

データの準備

#donwload data
git clone https://github.com/ChaoLab/METABOLIC_copy.git
tar xfz METABOLIC_copy/5_genomes_test.tgz

入力ディレクト

f:id:kazumaxneo:20210528132513p:plain

 

METABOLIC-G.plをランしてみる。

#run image
docker run -it -e DISPLAY=$DISPLAY -v /tmp/.X11-unix:/tmp/.X11-unix -v "$PWD":/tmp/home --user=$(id -u):$(id -g) tin6150/metabolic:4.0

#run METABOLIC (30 threads)
cd /tmp/home
perl /opt/METABOLIC/METABOLIC-G.pl -t 30 -in-gn 5_genomes_test/Genome_files -o metabolic_out

テストデータのランには数十分かかった。 

出力

f:id:kazumaxneo:20210528132656p:plain

提供したゲノムアセンブリごとにまとめられている。MEROPSはペプチダーゼデータベースからのアノテーション

 

METABOLIC_Figuresを2つほど開いてみる。

Nutrient_Cycling_Diagrams/GCA_005222525.1_ASM522252v1_genomic.draw_carbon_cycle_single.pdf

f:id:kazumaxneo:20210528132755p:plain

 

Nutrient_Cycling_Diagrams/GCA_000148385.1_ASM14838v1_genomic.draw_nitrogen_cycle_single.pdf

f:id:kazumaxneo:20210528132916p:plain

 

サマリーの.xlsx ファイルはV4タグのdocker imagesでは出力エラーになりますが、元のTSVファイルはMETABOLIC_result_each_spreadsheet 以下に出力されています。

 

METABOLIC_result_each_spreadsheet/METABOLIC_result_worksheet1.tsv

f:id:kazumaxneo:20210528133620p:plain

 

引用

METABOLIC: High-throughput profiling of microbial genomes for functional traits, biogeochemistry, and community-scale metabolic networks

Zhichao Zhou, Patricia Q. Tran, Adam M. Breister, Yang Liu, Kristopher Kieft, Elise S. Cowley, Ulas Karaoz, Karthik Anantharaman

bioRxiv, Posted November 09, 2020

 

関連