メタゲノム解析には、リードベースの分類学的プロファイリング、アセンブル、メタゲノムアセンブリゲノム(MAGs)のビニングが一般的である。ここでは、これらのステップを統合したRead Annotation Tool (RAT)を報告する。RATを使ってMAGやコンティグから得られる強固な分類学的シグナルを用いて、リードアノテーションを強化することに成功した。RATは高い精度と感度で分類学的プロファイルを再構築し、他の最先端ツールを凌駕している。多様性の高い地下水サンプルでは、RATはメタゲノミックリードの大部分をアノテーションし、適切な、時には高い分類学的ランクで新規分類群を呼び出すことができた。このように、RATによる統合プロファイリングは、マイクロバイオームの正確かつ包括的なビューを提供する。CAT/BAT/RATは https://github.com/MGXlab/CAT で入手できる。CAT packは、GTDBアノテーションもサポートするようになった。
配列の長さが長いと、複数の分類学的シグナルを統合できるため、先に述べたアノテーションのエラーが軽減される(アノテーションの信頼度:MAGs > contigs > reads)。しかし、長い配列の方が分類学的アノテーションの精度が高いとはいえ、メタゲノミックデータの一部しか表現していないことが多く、マイクロバイオームの不完全な姿を示している(データの説明:リード>コンティグ>MAG)。de novoアセンブリやビニングはゲノム配列の十分なカバレッジに依存するため、MAGやコンティグを評価した場合、特に希少な微生物が見落とされることが予想される。
このパイプラインは、de novoアセンブルとビニングから得られたコンティグとMAGの正確なアノテーションと、残りの未アセンブルリードの直接的な相同性検索を統合している。RATは、可能な限り長い配列にリードを関連付け、最も信頼性の高い分類学的シグナル(MAGs > contigs > reads)に従って分類を割り当てることで、分類学的プロファイルを推定する。コンティグとMAGは、オープンリーディングフレーム(ORF)予測とタンパク質データベースとの比較に基づくロバストなアノテーションを提供する、以前に発表されたツールCATとBATを用いて分類学的にアノテーションされる。RATは、MAG、コンティグ、リードからの分類学的シグナルを統合することで、他の最新ツールよりも正確なリードアノテーションと分類学的プロファイルを提供し、多くの新規分類群を含む地下水マイクロバイオームを正確に特徴付けることを示す。
インストール
RAT は CAT v6.0 から CATパッケージに追加された。condaパッケージマネージャはまだサポートされていないので、依存関係を導入し(紹介)、CATレポジトリをクローンして使う。データベースは前もってビルドされたものがレポジトリのリンクからダウンロードできる。
git clone https://github.com/MGXlab/CAT.git
cd CAT/CAT_PACK/
export PATH=$PATH:$PWD
$ CAT_pack -h
usage: CAT_pack (download | prepare | contigs | bins | reads | add_names | summarise) [-v / --version] [-h / --help]
Run Contig Annotation Tool (CAT), Bin Annotation Tool (BAT), or Read Annotation Tool (RAT).
Required choice:
download Download and preprocess data from NCBI nr or GTDB.
prepare Construct database files.
contigs Run CAT.
bins Run BAT.
reads Run RAT.
add_names Add taxonomic names to CAT, BAT, or RAT output files.
summarise Summarise a named CAT or BAT classification file.
Optional arguments:
-v, --version Print version information and exit.
-h, --help Show this help message and exit.
> CAT -v #バージョンに注意
CAT pack v6.0 (12 December, 2023) by F. A. Bastiaan von Meijenfeldt,
Nikos Pappas, and Ernestina Hauptfeld.
実行方法
RATは、MAG、コンティグ、リードからの分類学的シグナルを統合することにより、メタゲノムの分類学的構成を推定する。
RATのランには、MAGs/bin、コンティグ、リードが必要。これらから統合プロファイルを作成する。どの要素を統合するかを指定するには、-mode 引数を使用する。指定できる文字は、m(MAGs)、c(contigs)、r(reads)となっていて、3文字の組み合わせはr単独を除いてすべて使用可能。さらにデータベース、taxonomyデータベースも指定する必要がある。
CAT reads --mode mcr -b bin_folder/ -c contigs.fasta --bam1 mapping_file_sorted.bam -1 forward_reads.fq.gz -2 reverse_reads.fq.gz -d db/ -t tax/
-
-m classification mode. "mcr": integrate annotations from MAGs, contigs, and reads; "cr": integrate annotations from contigs and reads; "mr": integrate annotations from MAGs and reads.
リードはシングルエンドとペアエンド両方サポートしている。RATはコンティグとMAGに対してCATとBATを実行し、リードをコンティグにマップし、マップされていないリードを個別にアノテーションする。すでにソートされたマッピングファイルを所有しているなら、提供することでマッピングステップをスキップできる(レポジトリより)。
RATの出力(レポジトリより)
- ログファイル
- コンティグfastaの全CAT出力ファイル
- MAGの全BAT出力ファイル(DIAMONDアライメントとタンパク質Fastaを除く)
- 各 MAG のアバンダンスを含むテーブル
- 検出されたすべての分類群とそのサンプル中の存在量を含む表
- 各リードの系統と、どのステップでアノテーションが行われたかを含むテーブル(-modeでrを指定しない場合はオプション)
- コンティグfasta中の各コンティグの存在量を含むテーブル
- CATでアノテーションできなかったすべてのマッピングされていないリードとコンティグの配列を含むfastaファイル
- マッピングされていないリードとアノテーションされていないコンティグのダイアモンドアラインメント
- マッピングされていないリードと(以前に)アノテーションされていないコンティグのアノテーションを含むテーブル
マッピング後に不明のエラーが出る。
引用
Integration of taxonomic signals from MAGs and contigs improves read annotation and taxonomic profiling of metagenomes
Ernestina Hauptfeld, Nikolaos Pappas, Sandra van Iwaarden, Basten L. Snoek, Andrea Aldas-Vargas, Bas E. Dutilh, F.A. Bastiaan von Meijenfeldt
bioRxiv, Posted March 24, 2023
関連