メタゲノムシークエンスにより、大規模なゲノムの同定とゲノムの特性解析が可能になる。Binningとは、未知の細菌や古細菌の配列断片(メタゲノムコンティグ)の複雑な混合物からゲノムを回収するプロセスである。メタゲノムから回収したゲノムの品質を評価するためには、多くの独立したステップを含む複雑なパイプラインを使用する必要があるが、その再現性や維持は困難である。コンテナ技術を利用した、原核生物のドラフトゲノムの品質評価のための包括的で自動化された使いやすい計算ワークフローがあれば、発表された結果の再現性や再利用性が大幅に向上するだろう。本研究では、品質評価とゲノムデレプリケーションのためのコンテナ対応Nextflowパイプラインであるmetashot/prok-qualityを紹介する。metashot/prok-qualityツールは、MIMAG(Minimum Information about a Metagenome-Assembled Genome)規格に準拠したゲノム品質レポートを作成し、Nextflow、Docker、Singularityをサポートするすべてのプラットフォーム(クラウド上のコンピュータクラスタやバッチインフラを含む)ですぐに実行できる。ワークフローとドキュメントは、GPL3ライセンスの下、GitHubで公開されている。
Githubより
metashot/prok-quality は、基本的なアセンブリ統計、完全性、汚染、rRNA および tRNA 遺伝子など、MIMAG 標準 (https://doi.org/10.1038/nbt.3893) で推奨されている品質指標を報告する。さらに、GUNC (https://doi.org/10.1101/2020.12.16.422776) を利用して、キメリズム (non-redundandt contaminationなど) を検出する。再現性はNextflowとバージョン管理されたDockerイメージによって保証されている。
注:このワークフローは、「finished」SAGやMAGを分類するためのものではない。
HP
MetaShotの全パイプライン
https://metashot.github.io/workflows/
インストール
依存
- Docker (or Singulariry) and Nextflow.
実行方法
nextflow run metashot/prok-quality \
--genomes '*.fa' \
--outdir results
#guncのdatabaseも指定する
nextflow run metashot/prok-quality \
--genomes '*.fa' \
--outdir results
--gunc_db 'results/gunc_db/gunc_db_2.0.4.dmnd'
出力
主要な出力ファイルはgenome_info.tsv。この TSV ファイルには、各入力ゲノムの完全性(CheckMの推定値)、汚染、GUNCフィルタ(GUNC解析に合格しなかったゲノムはキメラの可能性が高い)、N50、 rRNA 遺伝子(5S rRNA, 23S rRNA, 16S rRNA)、tRNA の数、tRNA の種類などの品質統計情報が含まれている。filtered "ディレクトリには、--min_completeness, --max_contamination, --gunc_filterオプションに従ってフィルタリングされたゲノムが保存されている。TSVファイルgenome_info_filtered.tsvには、genome_info.tsvと同じ情報が含まれているが、フィルタリングされたゲノムのみが含まれている。
ラン中にエラーになる。
引用
Large-scale quality assessment of prokaryotic genomes with metashot/prok-quality
Davide Albanese, Claudio Donati
F1000Research, version 1; peer review: awaiting peer review]
https://f1000research.com/articles/10-822
Minimum Information about a Metagenome-Assembled Genome (MIMAG) について提案した論文
MIMAGとMISAG(シングルセルのMinimum Information)は、バクテリアや古細菌のゲノム配列を報告するために、Genomic Standards Consortium (GSC)が策定した規格。論文として報告する場合、SAGとMAGのアセンブリ統計、ゲノムの完全性と汚染度の推定値の記載と公共データベースへの登録の両方を必須の評価基準とすることを提案している。この基準では、各MAGを「complete」「high-quality draft」「medium-quality draft」「low-quality draft」に分類することも推奨している。GSCの必須の基準は論文のTable 1に記載されており、基準の全セットはSupplementary Table 1に記載されている。
この論文はメタゲノム関連の論文でよく引用されていますね。