メタゲノム・ビニングのための最近の深層学習手法のいくつかは、高品質なメタゲノムアセンブリゲノムの回収率向上を主張している。これらの手法は、contig embeddings(コンティグの主要な特徴量を固定次元のベクトルに変換する操作を行ったもの)を学習しクラスタリングするアプローチが異なる。ビニング技術の急速な進歩には、新規手法の有効性を評価するための厳密なベンチマークが必要である。本著者らは、著者ら開発のMcDevolを含め、CAMI2データセットを用いて新たに開発された最先端の深層学習ビナーのベンチマークを行った。
結果、COMEBinとGenomeFaceが最高のビニング精度を示すことが明らかになった(ただし、embeddings精度が常に最高とは限らない)。興味深いことに、ビニング後の再アセンブリは、低カバレッジのビンの品質を一貫して向上させた。低カバレッジデータセットでは、複数サンプルカバレッジの共アセンブリ済みコンティグをビニングすることが有効である一方、高カバレッジサンプルでは、複数サンプルのカバレッジを持つ複数サンプルコンティグをビニングする事が有効であることが判明した。マルチサンプルビニングでは、クラスタリング前にサンプルごとに埋め込み空間を分割する手法が、最終クラスタをサンプルごとに分割する標準手法よりも性能が向上した。
COMEBinとGenomeFaceが全体的に最高性能を示し、MetaBAT2とGenomeFaceは優れた処理速度を発揮した。今後の開発を促進するため、メタゲノムビンナーの標準化されたベンチマーク用ワークフローを提供する。
インストール
依存
- McDevol requires glibc2.25. Currently, McDevol was tested only on Linux system.
git clone https://github.com/soedinglab/McDevol.git
cd McDevol/
mamba env create -n mcdevol_env --file=environment.yml
conda activate mcdevol_env
cd mcdevol/
python mcdevol.py --help
export PATH=${PATH}:$(pwd)
> python mcdevol.py --help
$ python mcdevol.py --help
usage: mcdevol [-h] (-a ABUNDANCE | -i INPUTDIR) -c CONTIGS [-l MINLENGTH] [-o OUTDIR] [-n NCORES] [--abundformat ABUNDFORMAT] [-v] [-f NFRAGMENTS] [-r READLENGTH] [-e LEARNINGRATE] [--multi_split]
McDevol: An accurate metagenome binning of contigs based on decovolution of abundance and k-mer embedding
optional arguments:
-h, --help show this help message and exit
-a ABUNDANCE, --abundance ABUNDANCE
abundance file in TSV format separated by tabs
-i INPUTDIR, --inputdir INPUTDIR
directory that contains SAM files
-c CONTIGS, --contigs CONTIGS
contigs fasta (or zip)
-l MINLENGTH, --minlength MINLENGTH
minimum length of contigs to be considered for binning
-o OUTDIR, --outdir OUTDIR
output directory
-n NCORES, --ncores NCORES
Number of cores to use
--abundformat ABUNDFORMAT
Format of abundance ('std|metabat', default='std') std:[contigname, s1meancov, s2meancov,...,sNmeancov]; metabat:[contigName, contigLen, totalAvgDepth, s1meancov, s1varcov,...,sNmeancov, sNvarcov]
-v, --version print version and exit
-f NFRAGMENTS, --nfragments NFRAGMENTS
number of augumented fragments to generate
-r READLENGTH, --readlength READLENGTH
average read length of fastq files
-e LEARNINGRATE, --learningrate LEARNINGRATE
learning rate
実行方法
メタゲノムアセンブリのコンティグとそれにリードをマッピングして得たSAMファイル、出力ディレクトリを指定する。
1、マッピング。ここではminimap2を使う。
minimap2 -ax sr -t 10 -L --eqx assembly.fasta sample1_R*fq.gz > sam/in.sam
=> multi-sampleあるなら繰り返す
2、mcdevolのラン
python mcdevol.py -i sam_dir -c contigs.fasta -o outdir --abundformat metabat -n 24
GenomeFaceの重みファイルがゼロになるエラーで停止する。自己学習によるモデルの生成がうまくいっていないのだと考えられる(Nvidiaドライバーは正常に認識する)。改善できたら追記します。
Githubより
- McDevolは入力コンティグのリードカバレッジプロファイルが高い場合に最も強力な性能を発揮する。
引用
Evaluation of Metagenome Binning: Advances and Challenges
Yazhini Arangasamy, Étienne Morice, Annika Jochheim, Benjamin Lieser, Johannes Söding
bioRxiv, Posted February 21, 2025.