macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムの分類学的プロファイリングを行う mOTUs3

2022/09/07 誤字修正、オプション追記, 10/17 インストール手順修正

 

 分類学的プロファイリングは、生物試料中の微生物の相対的な存在量を検出・定量することを目的としたマイクロバイオーム研究の基本的なタスクである。ショットガンメタゲノムデータを利用する方法は、一般に、配列決定され分類学的に注釈されたリファレンスゲノムが利用可能であることに依存している。しかし、大半の微生物はまだ培養されておらず、そのようなリファレンスゲノムが存在しない。そのため、特に未踏の環境から採取されたサンプルでは、メタゲノム分類プロファイリングの際に、かなりの割合の微生物群集メンバーが未算入のまま残される。この問題に対処するため、本著者らはメタゲノムのリファレンスゲノムに依存しない種レベルのプロファイリングを可能にするツール、mOTUプロファイラを開発した。このツールは、選択されたマーカー遺伝子に基づき、「既知」と「未知」の両方の種の同定と定量をサポートする。

 本発表では、33,000 以上の種レベルのOTUについてメタゲノムのプロファイリングを可能にするコマンドラインツール、mOTUs3 を紹介する。そのために、土壌、淡水、反芻動物やその他の動物の消化管など、多様なマイクロバイオームから得られた60万以上のドラフトゲノム(そのほとんどがメタゲノムアセンブリゲノム(MAG))の再構成と解析を活用し、リファレンスゲノムに大きく劣ることを明らかにした。全体として、全種レベルの分類群の3分の2がリファレンスゲノムを欠いていた。これらの新規分類群の累積相対存在量は、ヒトの体内部位のようなよく研究されているマイクロバイオームでは低かった(6-11%)。一方、ヒト以外の多様なマイクロバイオームでは、相対存在量のかなりの割合(海洋、淡水、土壌:43-63%)、あるいは大部分(豚、魚、牛:60-80%)を占めた。コミュニティが開発したベンチマークとデータセットを用いて、mOTUs3が他の手法よりも正確で、16S rRNA遺伝子ベースの分類学的プロファイリング手法と一致することを確認した。さらに、mOTUs3は、よく知られた微生物群を種レベルの分類群に分解する能力を大幅に高め、比較メタゲノム研究において、異なる濃度で存在する新しい分類群を同定するのに役立つことを実証した。

 メタゲノムの正確な種レベルのプロファイリングを可能にするためにmOTUs3を開発した。他の手法と比較して、原核生物群集の多様性、特に現在未解明なマイクロバイオームについて、より包括的な見解を得ることができる。研究コミュニティによる比較解析を容易にするため、一般に公開されているメタゲノムについて11,000以上の事前計算されたプロファイルが公開されており、https://github.com/motu-tool/mOTUs で自由に利用できる。

 

HP

https://motu-tool.org/index.html

 

 

インストール

condaで仮想環境を作ってpipで導入した。

依存

  • Python 3 (or higher)
  • the Burrow-Wheeler Aligner v0.7.15 or higher (bwa)
  • SAMtools v1.5 or higher
  • metaSNV v1.0.3 (necessary for snv_call command)

 本体 Github

#conda (link)
mamba create -n motus python=3.8 -y
conda activate motus
mamba install -c conda-forge -c bioconda bwa samtools metasnv -y
mamba install -c conda-forge -c bioconda motus=3.0.3

#pip (pypi)
pip install motu-profiler

 

データベース

ダウンロード用のコマンドが用意されている。

motus downloadDB

#test
motus profile --test

mOTUsデータベースは、3種類のmOTUから構成されている(Githubより)。

  • ref-mOTU:既知の生物種を表す。
  • メタゲノムから得られた未知の生物種を表す「meta-mOTU」。
  • ext-mOTUはMAGから得られた未知の生物種を表す。

なお、meta-mOTUとext-mOTUには種レベルのアノテーションは付かない。mOTUsデータベースは定期的に更新されており、最新版(2.6.1)では、約60万個のドラフトゲノムを収録し、プロファイリング可能な種が倍増した。

(使われているMAGのソースについてはプレプリントの図1に示されています。mOTUs2よりもさらに増えましたね。)

 

#test
> motus profile --test

#help

> motus profile 

Usage: motus profile [options]

 

Input options:

   -f  FILE[,FILE]  input file(s) for reads in forward orientation, fastq(.gz)-formatted

   -r  FILE[,FILE]  input file(s) for reads in reverse orientation, fastq(.gz)-formatted

   -s  FILE[,FILE]  input file(s) for unpaired reads, fastq(.gz)-formatted

   -n  STR          sample name ['unnamed sample']

   -i  FILE[,FILE]  provide SAM or BAM input file(s)  (generated by motus map_tax)

   -m  FILE         provide a mgc reads count file (generated by motus calc_mgc)

   -db DIR          provide a different database directory

 

Output options:

   -o  FILE         output file name [stdout]

   -I  FILE         save the result of BWA in BAM format (output of motus map_tax)

   -M  FILE         save the mgc reads count (output of motus calc_mgc)

   -e               only species with reference genomes (ref-mOTUs)

   -u               print the full name of the species

   -c               print result as counts instead of relative abundances

   -p               print NCBI taxonomy identifiers

   -B               print result in BIOM format

   -C  STR          print result in CAMI format (BioBoxes format 0.9.1)

                    Values: [precision, recall, parenthesis]

   -q               print the full rank taxonomy

   -A               print all taxonomic levels together (kingdom to mOTUs, override -k)

   -k  STR          taxonomic level [mOTU]

                    Values: [kingdom, phylum, class, order, family, genus, mOTU]

 

Algorithm options:

   -g  INT          number of marker genes cutoff: 1=higher recall, 6=higher precision [3]

   -l  INT          min length of the alignment (bp) [75]

   -t  INT          number of threads [1]

   -v  INT          verbosity level: 1=error, 2=warning, 3=message, 4+=debugging [3]

   -y  STR          type of read counts [insert.scaled_counts]

                    Values: [base.coverage, insert.raw_counts, insert.scaled_counts]

 

> motus merge

Usage: motus merge [options]

 

Input options:

   -i FILE[,FILE] list of mOTU profiles to merge (comma separated)

   -d DIR         merge all files in the directory DIR

   -a STR[,STR]   add pre-computed profiles from different environmental samples

                  Values: [all, air, bioreactor, bee, cat,

                  cattle, chicken, dog, fish, freshwater, human,

                  marine, mouse, pig, sheep, soil, termite, wastewater]

 

Output options:

   -o FILE        output file name [stdout]

   -B             print result in BIOM format

 

Algorithm options:

   -v INT         verbosity level: 1=error, 2=warning, 3=message,

4+=debugging [3]

 

 

実行方法

メタゲノムプロファイリング

fastqファイルを指定する。

#unpaired
motus profile -s metagenomic_sample.fq.gz -t 20 -n sample1 -o taxonomy_profile_sample1.txt

#paired
motus profile -f sample_R1.fq.gz -r sample_R2.fq.gz -t 20 -n sample1 -o taxonomy_profile_sample1.txt

#複数回のシークエンシング
motus profile -f sample1_run1.fq,sample1_run2.fq -r sample1_run1_rev.fq,sample1_run2_rev.fq -s sample1_run1_single.fq -t 20 -n sample1 -o taxonomy_profile_sample1.txt
  • -f    input file(s) for reads in forward orientation, fastq(.gz)-formatted
  • -r    input file(s) for reads in reverse orientation, fastq(.gz)-formatted
  • -s    input file(s) for unpaired reads, fastq(.gz)-formatted
  • -n    sample name ['unnamed sample']
  • -t     number of threads [1]
  • -o     output file name [stdout]

motus profileコマンドは、map_tax、calc_mgc 、calc_motu コマンドで行う3つのステップで一括で行う。

 

複数結果のマージ

motus mergeコマンドを使う。

motus profile -s metagenomic_sample_1.fastq -o taxonomy_profile_1.txt
motus profile -s metagenomic_sample_2.fastq -o taxonomy_profile_2.txt
motus merge -i taxonomy_profile_1.txt,taxonomy_profile_2.txt > all_sample_profiles.txt

 

 

引用

Reference genome-independent taxonomic profiling of microbiomes with mOTUs3
Hans-Joachim Ruscheweyh, Alessio Milanese,  Lucas Paoli, Nicolai Karcher, Quentin Clayssen, Marisa Isabell Metzger,  Jakob Wirbel, Peer Bork, Daniel R. Mende, Georg Zeller, Shinichi Sunagawa

bioRxiv, Posted April 08, 2022

 

関連