メタゲノムビニングはメタゲノム解析における重要なステップであり、同一ゲノム由来のコンティグを一貫性のあるグループにクラスタリングすることを目的とする。現代的なワークフローでは、ほとんどのビニングツールはショットガンメタゲノムシーケンスデータのアセンブリから開始する。組み立てられたコンティグは、通常は分類学に依存しない手法を用いて、個々の微生物ゲノムまたは種を表すビンにグループ化される。いくつかの手法が存在するものの、メタゲノム・ビニングは、特に複雑で多様性の高い微生物群集において、依然として困難でありながら必須の課題である。本著者らは、メタゲノム・コンティグの効果的なビニングを明示的に設計した新規メタゲノム・ビニングツール「CoCoBin」を提案する。本研究では、組成情報とカバレッジ情報を分離することでコンティグ類似性を計算する革新的な手法を導入した。本手法は、(1) 長さ範囲に基づくコンティグのクラスタ割り当て、(2) 組成特徴(例:k-mer頻度)に基づくコンティグ類似度の計算、(3) カバレッジ特徴に基づくコンティグ差異の計算から始まる。これらの類似度指標を統合してグラフを構築し、ノードはコンティグを、エッジはそれらの間の類似性を表す。最後に、グラフにルーヴァンアルゴリズムを適用し、近縁なコンティグをクラスタリングする。CoCoBinは、9つのシミュレーションデータセット(うち5つは模擬コミュニティデータ)において、BusyBee Web、CONCOCT、MaxBin 2.0、MetaBAT 2、MetaDecoderといった複数の最先端ビニングツールと比較された。
インストール
git clone https://github.com/cucpbioinfo/CoCoBin.git
cd Metagenomic-Binning/Binning_project/
pip install . #*1
> python Binning_Main.py -h
usage: Binning_Main.py [-h] [-o OUTPUT] fasta_file kmer_file
Contig binning using k-mer similarity, coverage difference and community detection
positional arguments:
fasta_file Path to the FASTA file (e.g., contigs.fasta)
kmer_file Path to the 4-mer reverse complement feature CSV file (e.g., 4mer_ReverseNor.csv)
optional arguments:
-h, --help show this help message and exit
-o OUTPUT, --output OUTPUT
Name of the output CSV file (default: Bins.csv)
実行方法
metaSPAdes 等でアセンブリを行い出力された コンティグのFASTA ファイル、k-mer組成の特徴量ファイルを選択する。
python Binning_Main.py contigs.fasta 4mer_ReverseNor.csv -o my_bins.csv
k-mer組成ファイルは iLearn ツール(descnucleotide/RCKmer.py)を使って生成とあるが、iLearnレポジトリにdescnucleotide/RCKmer.pyが見つからない。
引用
CoCoBin: Graph-Based Metagenomic Binning via Composition–Coverage Separation
Khuanwara Potiwara, Duangdao Wichadakul
bioRxiv, Posted September 01, 2025.
pythonのバージョン指定(1行目)を消し、それからnetworkxを以下のように修正してから実行した。
networkx<3.6,>=3.0