macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

MAGとSAGのゲノム品質を評価する MDMcleaner 

2022/05/21 ツイート追記

 

 現在、環境微生物の大部分は未培養のままであり、「微生物ダークマター」(MDM)と呼ばれている。そのため、これらの微生物に関するゲノム解析は、シングルセルオミクスやメタゲノム解析などの培養に依存しないアプローチに限定されている。しかし、MDMゲノムは、正しい分類を検証するための培養された代表的なものがなければ、誤った分類や汚染されたコンティグに基づく誤解を招く可能性があり、その結果、大多数の未培養微生物に関する我々の見解が不明瞭になる。さらに、過去のゲノム投稿によるデータベースの汚染が徐々に進行すると、エラーが伝播し、現在だけでなく将来の比較ゲノム解析にも影響を与える可能性がある。そのため、特に未培養MDMゲノムの場合、厳密な汚染検出とフィルタリングが必要である。しかし、現在のゲノム報告基準は、純度よりも完全性を重視しており、事実上のゴールドスタンダードゲノム評価ツールであるcheckMは、未培養分類群や断片化したゲノムを識別しているのが実情である。これらの問題に対処するため、本著者らは新しいコンティグ分類、スクリーニング、フィルタリングのワークフローと、それに対応するオープンソースのパイソン実装「MDMcleaner」を発表し、模擬データと実データを用いて他のツールとの比較テストを行った。MDMcleanerは、現在のスクリーニング手法では見過ごされる実質的なコンタミネーションを明らかにし、新規ゲノムとその基礎となる参照データベースの両方において誤帰属コンティグを感度よく検出し、それによって「微生物の暗黒物質」に対する我々の見解を大きく前進させる。

 

 培養に依存しないシーケンシング技術によって得られるゲノム情報は、依然として、地球の未培養微生物群、いわゆる「微生物ダークマター」(MDM)を知るための主要な情報源となっている。シーケンサーや(メタ)ゲノム解析手法の絶え間ない進歩により、現在ではこの戦略は幅広い科学者コミュニティにとって利用しやすくなっている。その結果、metagenome-assembled genomes(MAG)とsingle-amplified genomes(SAG)という形で、未培養生物のゲノムデータセットが飛躍的に増加し、両者にはそれぞれ異なる長所と短所がある。MAGは、いわゆる「ビニング」手法の結果であり、多様なコミュニティのゲノム材料を組み合わせて得られたコンティグ(連続的にアセンブルされた配列断片)を別々の「ビン」に分類しようとするものである。各ビンは個々の種のゲノムを最適に表現するが、実際には、MAGはサンプルに存在するすべての可能な株の変種から集められたコンセンサスゲノムである可能性が高く、一般にゲノムアイランドやプラスミドなどの移動性遺伝要素を除外している(13,14)。この手法のもう一つの顕著な問題は、異なる種からのコンティグを同じビンに割り当て、それによって汚染されたまたはキメラのMAGを構築する危険性である(11,15)。シングルセルゲノミクス(SCG)は、これらの問題を回避することができる。SAGは、生物群集から物理的に分離された個々の細胞からDNAを増幅し、シークエンシングした結果である。理論的には、このようなゲノムは単一の生物から直接得られたものであるため、MAGよりも信頼性が高い。しかし、MDA(multiple displacement amplification)に基づく現在の全ゲノム増幅法には偏りがあるため、一般にMAGよりも不完全なSAGが多くなる。また、SCGは、試薬製造時に残留する微量のDNA(17)や、目的の細胞とともに偶然に選別された可能性のある環境中の遊離DNA断片などのコンタミネーションの影響を非常に受けやすい(8)。さらに、強固な凝集体やバイオフィルムを形成する微生物は、誤って一緒にソーティングされる可能性がある。その結果、両者のMDMゲノムの再構築には、品質管理の問題という共通点がある。両手法で得られたゲノムは一般に非常に断片化されているため(7,18)、純粋なリファレンス培養物なしに、正しく割り当てられた配列断片とそうでないものを自信を持って区別することは非常に困難である。

 この問題に対する初期の解決策として、checkMやBuscoというツールを用いて、ユニバーサルマーカー遺伝子に基づく完全性と汚染度の推定が行われた。その後、minimum information about a metagenome-assembled genome(MIMAG)やsingle amplified genome(MISAG)に代表される推奨ゲノム報告基準が発表されて以来(21)、checkMはゲノム品質を決定する事実上のゴールドスタンダードとなった。このツールの普及により、サブミットされるゲノムの質は大きく向上したが、このツールにも重大な結果をもたらす動作原理がある。高度に断片化したMAGやSAGでは、多くのコンティグが保存されたマーカー遺伝子を含まない場合があり、汚染物質と正しく割り当てられたゲノム断片を確実に区別することは不可能になる。checkMで実装されているように、分類レベルごとに異なるマーカーセットを提供することで、この分類の問題を少しは緩和できるかもしれない。しかし、サンプル数が少ない分類群や未培養の分類群では、リファレンスゲノムデータがほとんどないため、この方法の有効性は極めて限定的である。さらに、checkMは実際に汚染を直接検出するのではなく、プロキシ指標を用いて間接的に汚染を推定していること、つまり、想定される単一コピーマーカー遺伝子の多重度であることに留意する必要がある。複数回出現するマーカー遺伝子は、当該マーカーの系統を確認することなく、汚染の可能性を示す指標として解釈される。一方では、断片化した遺伝子、パラログ、近縁の相同遺伝子が汚染と分類される可能性があり、これは過大評価につながる。他方、実際の汚染は、保存されたマーカー遺伝子をコードしていても、この遺伝子が分析対象ゲノムに一度だけ出現する限りは容易に見逃される可能性もある。したがって、汚染はこの指標を誤解させる可能性があり、より正確には「マーカー遺伝子の多重度」と呼ぶべきであろう。

 SAGと同様にMAGから汚染コンティグを同定し除去する他の方法が過去に実施されたが、科学界で普遍的に採用されたわけではない。Rinkeら(3)は、GC含量分布とkmer頻度、および各コンティグにコードされた全タンパク質のBest Blast Hit分類を分析した。同様のアプローチは、Parksらが多数のメタゲノムから得た8000のMAGの品質チェックに使用したツールrefineM(9)や、Joint Genome Instituteが提供するツールProDeGe(23)にも実装されているが、これらはいずれも既に保守・サポートが終了している。より新しいツールとして、MAGpurifyとGuncがある(24,25)。MAGpurifyは、もともとヒト腸内細菌の解析のために開発され、ユニバーサルマーカー遺伝子、GC content、kmer frequency profilesの解析や、既知のコンタミや信頼できるコンティグの所定のセットの検討など、複数のモジュールアプローチから構成されている(25)。マーカー遺伝子を分類するためのMAGpurify参照データベースは、MetaPhlAn2 (26) に基づいており、いくつかの非培養分類群が除外されている。一方、Guncは、現在のところ、ゲノムの能動的な除染をサポートしていないが、現在のcheckM推定のゴールドスタンダードを改善するために、堅牢で感度の高いゲノム評価を提供するように設計されている(24)。タンパク質コード遺伝子を分類するための基礎データベースは、ゲノム分類データベース(GTDB)に基づいているため、現在知られているほとんどの未培養の候補分類群のゲノムを含んでいる。しかし、未培養生物のゲノム再構成をサブミットする際に、誤って分類された配列をリファレンスデータベースに導入し、その後エラーが伝播するリスクが高いため、独立した汚染スクリーニングやフィルタリングアプローチのバリエーションを増やすことが求められている。そうでなければ、個々のスクリーニング手法の欠点や落とし穴に気づかず、予防可能な汚染を体系的に見過ごしてしまう可能性が高くなる。さらに、効果的な分類、スクリーニング、フィルタリングアプローチは、公的なリファレンスデータセットにおけるコンタミネーションの進行中の問題を考慮する必要がある(27,28)(論文補足情報S1および補足表S1-S9も参照)。

ここでは、コンタミネーションの検出と除去のための代替戦略として、潜在的なリファレンスデータベースの汚染を認識し、それによってエラー伝播の危険性を最小限に抑える新しいワークフローを紹介する。このワークフローは、高度に断片化したゲノムや、公的なリファレンスデータベースで十分にカバーされていない分類群においても、コンタミネーションに対して高い感度を示し、SAGだけでなく原核生物のMAGにも同様に適用可能であることがわかった。このワークフローを実装した、コンティグ分類・精密化ツール「MDMcleaner」を、フリーかつオープンアクセスで提供している。また、公開データセット中の「汚染が少ない」と推定されるMDMゲノムの質を再評価し、大多数の未培養微生物に対する我々の現在の見解が、誤った帰属によってどの程度歪められているかを明らかにする。さらに、ゲノム評価に関する現在のベストプラクティス基準の潜在的な問題点を示し、これらの問題点を反映した現在のMIMAGs/MISAGs基準の改良を提案する。

 

実装については論文の方法で説明されています。

 

2022/05/21

 

インストール

レポジトリで推奨されている通り、condaでpython3.10の環境を作って依存関係を導入し、MDMcleanerはpipで導入した。

依存

  • python 3.7+
  • biopython v.1.78+
  • wget v.1.19+ (downloading reference datasets)
  • ncbi-blast v.2.10.1+ (aligning nucleotide sequences)
  • diamond v.2.0.6+ (aligning amino acid sequences)
  • hmmer v.3.3.1+ (detecting conserved marker genes)
  • barrnap v.0.9+ (detecting ribosomal RNA genes)
  • aragorn v 1.2.38+ (detecting tRNA genes)
  • prodigal v 2.6.3 (ORF/CDS-prediction)

Github

mamba create -n mdmcleaner_env python=3.10 -y
conda activate mdmcleaner_env
mamba install -c bioconda biopython blast=2.12.0 diamond hmmer barrnap aragorn prodigal -y
pip install mdmcleaner

#2022/05/21 condaのワンライナーで導入できるようになった(未テスト)
mamba create -n mdmcleaner_env python=3.10 -y
conda activate mdmcleaner_env
mamba install -c bioconda mdmcleaner

> mdmcleaner

usage: mdmcleaner [-h] {clean,makedb,get_markers,completeness,acc2taxpath,refdb_contams,set_configs,show_configs,check_dependencies,version} ...

 

MDMcleaner pipeline v0.8.2 for decontaminating and classifying microbial dark matter MAGs and SAGs

 

positional arguments:

  {clean,makedb,get_markers,completeness,acc2taxpath,refdb_contams,set_configs,show_configs,check_dependencies,version}

    clean               classify and filter contigs from microbial dark matter MAGs and SAGs

    makedb              Download and create MDMcleaner database

    get_markers         extracts protein coding and/or rRNA gene sequences from input genome(s)

    completeness        estimate completeness (roughly based on presence of universally required tRNA types). Results are printed directly to stdout

    acc2taxpath         Get full taxonomic path assorciated with a specific acession number

    refdb_contams       EXPERIMENTAL: evaluate potentiel refDB-contaminations

    set_configs         setting or changing settings in config files

    show_configs        check settings in config files (with highest ranking source for each setting)

    check_dependencies  checks if all dependencies for MDMcleaner are being met

    version             show version info and exit

 

options:

  -h, --help            show this help message and exit 

 

 

データベースの準備

GTDB, RefSeq, Silvaから最新のデータセットをダウンロードし、MDMcleanerで使用する形式に加工する。

mdmcleaner makedb -o database

100Mbit/sで13時間以上かかると書かれている。試した時は18時間ほどかかった。databaseディレクトリのサイズはトータルで180GBあった(2022/05/12時点)。

中断した時は、同じ出力ディレクトリを指定して再実行すれば、最後のチェックポイントから再開される。

 

configファイルの設定

プログラムのパスやデータベースのパスを指定する。ここでは必須のDBのパスだけ設定した。

mdmcleaner set_configs --db_basedir database/
  • -s {local, global}   change settings in local or global config file. 'global' likely require admin privileges. 'local' will modify or create a mdmcleaner.config file in the current working directory. default = 'local'

mdmcleaner.configが出力される。

 

実行方法

FASTA形式のゲノムファイルと出力ディレクトリを指定する。

mdmcleaner clean -i input*.fasta -o outdir -t 20
  • -i    input fastas of genomes and/or bins
  • -t    Number of threads to use. Can also be set in the mdmcleaner.config file
  • -o   output-folder for MDMcleaner results. Default = 'mdmcleaner_output'

結果は、ゲノムごとに指定した出力ディレクトリ のサブフォルダに格納される(例;outdir/sample1/ )。8スレッドの場合、平均的な大きさのバクテリアゲノム1つにつき約20-30分かかる。ここでは20スレッド指定した。

 

出力例

outdir/MAGxxx/

コンティグ分類の詳細レポート、krona(紹介)で可視化するための入力テーブル、およびコンティグのfataファイルを「keep」「evaluate_low」「evaluate_high」「delete」の4つのカテゴリに分類してフィルタリングしたものが含まれている。

 

- fullcontiginfos_beforecleanup.tsv; 各コンティグの詳細を示すタブ区切りのテーブル


- kept.fasta.gz; サブミットしても問題のない信頼できるコンティグ

- need_evaluation_low.fasta.gz;  refDBの曖昧さがあり、個別に再評価(RefSeqとのクロスブラストなど)した方がよいコンティグ

- need_evaluation_high.fasta.gz;  refDBのコンタミの兆候があり、詳細な再評価を行う前にサブミットすべきではないコンティグ

- removed.fasta.gz; 信頼できないコンティグで、サブミットに含めないことを決定したもの

 

論文より

  • mdmcleanerは潜在的な参照データベースの曖昧さを解決しようとする。これは実行時間を増加させ、常に成功するとは限らない。スピードを重視する場合は、-fast_run引数でこの処理を省略することができる。
  • 各コンティグは、そのコンティグ分類が全体のゲノム分類からどの程度ずれているか、またどのマーカー遺伝子と対応するアライメントID(もしあれば)が関与しているか、に基づいて「信頼度」スコアが割り当てられる(trust_index)。これらのスコアは、0(最低信頼度)から10(最高信頼度)までの範囲で設定される。このワークフローの出力は、各コンティグに関する詳細なレポートであり、対応する「信頼度」スコアと、コンティグを保持、削除、あるいはさらに評価するためのエントリを含む別々のFastaファイルに分割されたものである。

 

論文のTable 2.Summary of major findingsが良いまとめになっています。

引用

How clear is our current view on microbial dark matter? (Re-)assessing public MAG & SAG datasets with MDMcleaner 
John Vollmers, Sandra Wiegand, Florian Lenk, Anne-Kristin Kaster
Nucleic Acids Research, Published: 10 May 2022

 

関連


関連した研究

”我々は、CheckMが現在利用可能なすべてのゲノムと細菌群に適用できないことを実証した。RefSeqゲノムの大部分に対しては良好な結果を示したものの、12,326の生物に対しては怪しげな結果を出した。その中で、Physeterは、CheckMが見逃した239の汚染ゲノムを特定した。”

Frontiers | Contamination in Reference Sequence Databases: Time for Divide-and-Rule Tactics | Microbiology