macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

McDevol

 

メタゲノム・ビニングのための最近の深層学習手法のいくつかは、高品質なメタゲノムアセンブリゲノムの回収率向上を主張している。これらの手法は、contig embeddings(コンティグの主要な特徴量を固定次元のベクトルに変換する操作を行ったもの)を学習しクラスタリングするアプローチが異なる。ビニング技術の急速な進歩には、新規手法の有効性を評価するための厳密なベンチマークが必要である。本著者らは、著者ら開発のMcDevolを含め、CAMI2データセットを用いて新たに開発された最先端の深層学習ビナーのベンチマークを行った。

結果、COMEBinとGenomeFaceが最高のビニング精度を示すことが明らかになった(ただし、embeddings精度が常に最高とは限らない)。興味深いことに、ビニング後の再アセンブリは、低カバレッジのビンの品質を一貫して向上させた。低カバレッジデータセットでは、複数サンプルカバレッジの共アセンブリ済みコンティグをビニングすることが有効である一方、高カバレッジサンプルでは、複数サンプルのカバレッジを持つ複数サンプルコンティグをビニングする事が有効であることが判明した。マルチサンプルビニングでは、クラスタリング前にサンプルごとに埋め込み空間を分割する手法が、最終クラスタをサンプルごとに分割する標準手法よりも性能が向上した。

COMEBinとGenomeFaceが全体的に最高性能を示し、MetaBAT2とGenomeFaceは優れた処理速度を発揮した。今後の開発を促進するため、メタゲノムビンナーの標準化されたベンチマーク用ワークフローを提供する。

 

インストール

依存

  • McDevol requires glibc2.25. Currently, McDevol was tested only on Linux system. 

Github

git clone https://github.com/soedinglab/McDevol.git
cd McDevol/
mamba env create -n mcdevol_env --file=environment.yml
conda activate mcdevol_env
cd mcdevol/
python mcdevol.py --help
export PATH=${PATH}:$(pwd)

python mcdevol.py --help

$ python mcdevol.py --help

usage: mcdevol [-h] (-a ABUNDANCE | -i INPUTDIR) -c CONTIGS [-l MINLENGTH] [-o OUTDIR] [-n NCORES] [--abundformat ABUNDFORMAT] [-v] [-f NFRAGMENTS] [-r READLENGTH] [-e LEARNINGRATE] [--multi_split]

 

McDevol: An accurate metagenome binning of contigs based on decovolution of abundance and k-mer embedding

 

optional arguments:

  -h, --help            show this help message and exit

  -a ABUNDANCE, --abundance ABUNDANCE

                        abundance file in TSV format separated by tabs

  -i INPUTDIR, --inputdir INPUTDIR

                        directory that contains SAM files

  -c CONTIGS, --contigs CONTIGS

                        contigs fasta (or zip)

  -l MINLENGTH, --minlength MINLENGTH

                        minimum length of contigs to be considered for binning

  -o OUTDIR, --outdir OUTDIR

                        output directory

  -n NCORES, --ncores NCORES

                        Number of cores to use

  --abundformat ABUNDFORMAT

                        Format of abundance ('std|metabat', default='std') std:[contigname, s1meancov, s2meancov,...,sNmeancov]; metabat:[contigName, contigLen, totalAvgDepth, s1meancov, s1varcov,...,sNmeancov, sNvarcov]

  -v, --version         print version and exit

  -f NFRAGMENTS, --nfragments NFRAGMENTS

                        number of augumented fragments to generate

  -r READLENGTH, --readlength READLENGTH

                        average read length of fastq files

  -e LEARNINGRATE, --learningrate LEARNINGRATE

                        learning rate

 

実行方法

メタゲノムアセンブリのコンティグとそれにリードをマッピングして得たSAMファイル、出力ディレクトリを指定する。

 

1、マッピング。ここではminimap2を使う。

minimap2 -ax sr -t 10 -L --eqx assembly.fasta sample1_R*fq.gz > sam/in.sam

=> multi-sampleあるなら繰り返す

 

2、mcdevolのラン

python mcdevol.py -i sam_dir -c contigs.fasta -o outdir --abundformat metabat -n 24

 

GenomeFaceの重みファイルがゼロになるエラーで停止する。自己学習によるモデルの生成がうまくいっていないのだと考えられる(Nvidiaドライバーは正常に認識する)。改善できたら追記します。

 

Githubより

  • McDevolは入力コンティグのリードカバレッジプロファイルが高い場合に最も強力な性能を発揮する。

引用

Evaluation of Metagenome Binning: Advances and Challenges

Yazhini Arangasamy, Étienne Morice, Annika Jochheim, Benjamin Lieser,  Johannes Söding

bioRxiv, Posted February 21, 2025.