2025/06/07 追記
メタゲノムアセンブリゲノム(MAG)の数は、メタゲノム研究の規模拡大に伴い急速に増加しており、微生物叢研究の急速な進展を牽引している。計算効率と株レベルの解像度の観点から、サンプルごとのアセンブリが標準的な手法となっている。これには、異なるメタゲノムサンプルでアセンブルされたほぼ同一のゲノムを除去する「重複除去(dereplication)」が必要になる。本著者らはMAGmaxを開発した。これはビンのマージと再アセンブリ戦略により、MAGの数と品質の両方を向上させる効率的な重複除去ツールである。dRepがゲノムクラスタごとに単一の代表ビンを選択するのに対し、MAGmaxはクラスタ内の複数のビンをマージして再アセンブリすることでカバレッジを向上させる。MAGmaxはdRepと比較して、1.6倍の速度で3分の1のメモリ使用量ながら、より多くのdereplication済みで高品質なMAGを生成する。
MAGmaxはサンプル固有のゲノムビンを入力として受け取り、ユーザー定義の純度閾値(デフォルト:95%以上)に基づいてフィルタリングする。skani[6]と深さ優先探索アルゴリズムを使用して、ビンペア間の平均ヌクレオチド同一性(ANI、デフォルト:99%)に基づき、これらのビン間の単一リンク接続成分を識別する。各成分内で、最大クリーク検出を用いてクラスターを形成する。このアプローチでは、1つのビンが複数のクラスターに属することが可能である。アルゴリズムは、ANIカットオフ以上の配列同一性を持つすべてのビンペアが一緒にグループ化されることを保証する。どのクラスターにも属さないビンは、少なくとも1つのクラスターメンバーとの間でANIがカットオフを超える場合、既存のクラスタに追加される。
各クラスタについて、MAGmaxは品質スコア(完全度-5×汚染度、完全度90%以上、汚染度5%未満)が最高の代表ビンを選択する。該当するビンが存在しない場合、クラスタ内のビンはSPAdes[10]を使用してマージ・再アセンブルされる。再アセンブルされたビンの品質スコアは元の入力ビンと比較され、最良の品質スコアを持つビンが選択される。最後に、MAGmaxは冗長性除去を実施し、ANIカットオフを超えるペアから最高品質のビンのみを保持する(論文図1a)。マージと再アセンブルによって改善された非冗長なゲノムビンセットと、CheckM2[9]によって推定されたビンの完全度と汚染度をリストしたテキストファイルが得られる。
インストール
condaで環境を作って導入した。
#1 本体
mamba create -n magmax -y
conda activate magmax
mamba install -c bioconda magmax -y
#2 aligner2countsもmapidファイルを作るのに必要
mamba install -c bioconda aligner2counts
#1 pre-built executable.
wget https://github.com/soedinglab/MAGma/releases/download/v1.0.0/magmax-linux.tar.gz
cd magmax-linux/bin
chmod +x magmax
sudo cp magmax /usr/local/bin/
> magmax -h
MAGmax: A tool to MAXimize the yield of Metagenome-Assembled Genomes (MAGs) through merging and resssembly.
Usage: magmax [OPTIONS] --bindir <BINDIR> --readdir <READDIR> --mapdir <MAPDIR>
Options:
-b, --bindir <BINDIR>
Directory containing fasta files of bins
-r, --readdir <READDIR>
Directory containing read files
-m, --mapdir <MAPDIR>
Directory containing mapids files
-i, --ani <ANI>
ANI for clustering bins (%) [default: 99]
-c, --completeness <COMPLETENESS_CUTOFF>
Minimum completeness of bins (%) [default: 50]
-p, --purity <PURITY_CUTOFF>
Mininum purity (1- contamination) of bins (%) [default: 95]
-f, --format <FORMAT>
Bin file extension [default: fasta]
-t, --threads <THREADS>
Number of threads to use [default: 8]
--split
Split clusters into sample-wise bins before processing
-q, --qual <QUAL>
Quality file produced by CheckM2 (quality_report.tsv)
--assembler <ASSEMBLER>
assembler choice for reassembly step (spades|megahit), spades is recommended [default: spades]
-h, --help
Print help
-V, --version
Print version
テストラン
binディレクトリ、mapidファイル、fastqファイル(複数にも対応)、checkM2のクオリティレポートを指定する(紹介)。
git clone https://github.com/soedinglab/MAGmax.git
cd MAGmax/
magmax -b test/bins -m test/mapids -r test/reads -t 24 -q test/quality_report.tsv

出力

入力コンティグの配列名は、サンプルIDとコンティグIDを"C"で区切った形式(例:sample1Ccontig1)である必要がある。

また、FASTQファイルのリードIDはスペースまたはタブで区切られている必要がある。さらに、下の画像のようなMapid filesファイルも必要(*1)。

論文より
- 同一環境内の全サンプルのコンティグを連結し、GenomeFace [14]、VAMB [15]、MetaBAT2 [16]を用いてマルチサンプルカバレッジでビニングを行った。
- Honduras gut dataset(ホンジャマカの腸内サンプル)をGenomeFaceでbinningした結果を使ってベンチマークしたところ、MAGmaxはdRepと比較して、最大で37個より多くの非冗長ゲノムを回収し、完全度から汚染度を引いた指標でも改善が見られ、品質は最大で36.9%向上していた。さらにMAGmaxはdRepより1.6倍高速で、メモリ使用量は1/3程度に減っていた。
引用
Enhancing genome recovery across metagenomic samples using MAGmax
Arangasamy Yazhini, Johannes Söding
bioRxiv, Posted June 01, 2025.
*1
bowtie2-build all_bins.fasta bins_index
bowtie2 -x bins_index -1 sample_R1.fastq -2 sample_R2.fastq -S sample.sam -p 12
samtools view -bS sample.sam | samtools sort -o sample.sorted.bam
samtools index sample.sorted.bam
aligner2counts only-mapids sample.sorted.bam > sampleA_mapids
複数サンプルある場合、それぞれのfastqでマッピングしてmapidファイルを作成する。
関連
参考
GenomeFace