アセンブリーの品質を評価する手法の多くは、リファレンスゲノム(アセンブリを比較するためにキュレートされたゲノムのセット)を必要とする。そのような手法として、コンティグを1つ以上のリファレンスゲノムにマッピングして、逆位、リアレンジメント、種間転位などの広範なミスアセンブリを推定するmetaQUAST(Mikheenko et al.、2016)がある。それにもかかわらず、新たに発見されたいくつかのMAGは、ゲノムデータベースに代表される生物とは遠縁の新規生物を表しており、このことが有効なリファレンスの選択をしばしば不可能にしている。例えば、最も近い既知のrelativeが異なる細菌門に属していることがあり、これは非常に深い進化的分岐を示唆している(Pasolli et al.、2019)。逆に、バクテリアの種にはゲノムの違いが大きい株が含まれることがあるため、株間の真のゲノム変異がミスアセンブリと誤解されることがある。
そのため、メタゲノムからのフルゲノムまたは部分ゲノムのアセンブリには、リファレンスフリーの手法が有効だが、そのような手法はほとんど存在しない。最も広く使われている手法はCheckMであり、品質評価によく使われる2つのサブスコア(completenessとcontamination)を提供している。これらの指標は、特定の遺伝子座のカウントに基づいているため、個々のコンティグのレベルでゲノムアセンブリを評価するものではない。それでも、Almeidaら(2019)やPasolliら(2019)などの大規模なMAGデータセットでは、CompletenessとConaminationの閾値を用いて、アセンブリの品質をスクリーニングしている。
コンティグのミスアセンブリを評価する既存のリファレンスフリー手法は、ALE、SuRankCo、REAPR、VALETである。ALEは、ゲノムに関する確率的な仮定を行い、アセンブリされたコンティグの各ヌクレオチドに対して尤度スコアを提供するが、コンティグレベルでの品質推定値は提供しない。さらに、これらはゲノムアセンブリ用に開発されており、メタゲノムアセンブリ用ではない。SuRankCoは、入力コンティグの品質推定値を予測するために、手作業で作成された特徴のセットにランダムフォレスト分類法を利用することで、ゲノムやアセンブラに関する仮定を少なくしている。REAPRは、リードをコンティグにマッピングし、カバレッジやリードペアの適切なマッピングなど、様々なメトリクスからアンサンブルスコアを計算する。VALETはREAPRに類似しており、コンティグにマッピングされたリードに基づく複数のメトリクスの組み合わせを使用する。重要なのは、ALE、SuRankCo、REAPRはすでに保守されておらず、互換性の問題で使用できないということである。また、これらの手法の精度は、複雑なメタゲノムアセンブリでは評価されていない。
ここでは、コンティグレベルでのメタゲノムアセンブリの品質評価のための機械学習システムであるDeepMAsED (mased: a Middle English term for ‘misled’; Deep Metagenome Assembly Error Detection) を紹介する。DeepMAsEDの目的は、リファレンスゲノムがなくてもmetaQUASTから広範なミスアセンブリのラベルを予測することである(注;metaQUASTからの広範なミサアセンブリラベルをDeepMAsEDのターゲットとして使用)。本論文の貢献度は以下のようにまとめられる。(以下省略)
インストール
#conda (link)
mamba create -n deepmased bioconda::deepmased -y
conda activate deepmased
#pip(pypi)
pip install DeepMAsED
> DeepMAsED -h
$ DeepMAsED -h
usage: DeepMAsED [-h] [--version] {train,predict,evaluate,features} ...
DeepMAsED: Deep learning for Metagenome Assembly Error Detection
positional arguments:
{train,predict,evaluate,features}
optional arguments:
-h, --help show this help message and exit
--version show program's version number and exit
DESCRIPTION:
Usage: DeepMAsED <subcommand> <subcommand_params>
Example: DeepMAsED train -h
For general info, see https://github.com/leylabmpi/DeepMAsED/1
実行方法
ランにはアセンブリのfastaファイル(1-kb以上の配列だけ使用することが推奨されている)と、その配列にリードをマッピングして得たbamファイルが必要(論文中ではBowtie2 (v2.3.5)を使用)。bamファイルを得たら、fastaとbamの関係を示したタブ区切りテキストを作成する。ここでは1組だけなので、次のようなbam_fasta.tableファイルを準備した。
bam fasta
map.bam final.contigs.fa
1、feature tableの作成。準備したタブ区切りテキストを指定する。
DeepMAsED features bam_fasta.table
map_feats.tsvができる。
2、ミスアセンブリの検出。
DeepMAsED predict map_feats.tsv
deepmased_predictions.tsvができる。
出力例(Githubより転載)
DeepMAsEDのスコアのどの値でミスアセンブリ配列をカットオフするかですが、論文に掲載されている図が区切りの参考になります。
引用
DeepMAsED: evaluating the quality of metagenomic assemblies
Olga Mineeva, Mateo Rojas-Carulla, Ruth E Ley, Bernhard Schölkopf, Nicholas D Youngblut
Bioinformatics, Volume 36, Issue 10, 15 May 2020, Pages 3011–3017
関連