macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

表現学習に基づくビニング法 COMEBin

 

コンティグビニングは、メタゲノムデータ解析において、同一または近縁ゲノムからのコンティグをグループ化することで重要な役割を果たしている。しかし、既存のビニング手法は、データの種類が多様であることや、異種情報を効率的に統合することが困難であることから、実用化において課題に直面している。ここでは、対照的マルチビュー表現学習に基づくビニング手法COMEBinを紹介する。COMEBinは、データ増大を利用して各コンティグの複数の断片(ビュー)を生成し、対比学習により異種特徴(配列カバレッジとk-mer分布)の高品質な埋め込みを得る。複数の模擬データセットおよびリアルデータセットを用いた実験結果から、COMEBinは、特に実環境サンプルからほぼ完全なゲノムを復元する際に、最先端のビニング手法を凌駕することが実証された。COMEBinは、メタゲノム解析パイプラインに組み込んだ場合、潜在的な病原性抗生物質耐性菌(PARB)の回収や、潜在的な生合成遺伝子クラスター(BGC)を含む中程度以上の品質のビンの回収など、他のビニング手法よりも著しく優れている。

 

レポジトリより

COMEBin のフレームワークは主に以下のステップに分けられる: 1)データ補強:元のコンティグからランダムに部分配列を抽出することにより、5セットの補強データを構築し、元のコンティグごとに6つのビューを得る。2)特徴ベクトルの構築:各コンティグ(元の配列と補強配列を含む)について、ヌクレオチド頻度特徴とカバレッジ特徴を構築する。3)対比学習:マルチビュー対比学習に基づいて、異種情報を用いたビニングに適した低次元の埋め込み表現を得る。4)クラスタリング:コミュニティ分割アルゴリズムLeidenに基づいてビニング結果を生成する。

このうち、対比学習で用いられるネットワーク構造には、1)「カバレッジネットワーク」:カバレッジ特徴量を処理する部分と、2)「コンバインネットワーク」:k-mer特徴量と「カバレッジネットワーク」を統合し、異種情報を含む表現を得る部分がある。

インストール

Github

https://github.com/ziyewang/COMEBin

mamba create -n comebin_env -y
conda activate comebin_env
mamba install -c conda-forge -c bioconda comebin -y

#GPU版をランするにはpytorchも必要
mamba install pytorch pytorch-cuda=11.8 -c pytorch -c nvidia -c conda-forge -y

> run_comebin.sh 

COMEBin version: 1.0.2

Usage: bash run_comebin.sh [options] -a contig_file -o output_dir -p bam_file_path

Options:

 

  -a STR          metagenomic assembly file

  -o STR          output directory

  -p STR          path to access to the bam files

  -n INT          number of views for contrastive multiple-view learning (default=6)

  -t INT          number of threads (default=5)

  -l FLOAT        temperature in loss function (default=0.07 for assemblies with an N50 > 10000, default=0.15 for others)

  -e INT          embedding size for comebin network (default=2048)

  -c INT          embedding size for coverage network (default=2048)

  -b INT          batch size for training process (default=1024)

 

 

 

テストラン

レポジトリのgoogle driveリンクからテストデータ(5.2GB)をダウンロードできる。

解凍後

bamfiles/下にはbamファイル(5.1GB)が1個配置されている。

 

COMEBinのランにはコンティグとBAMファイルを指定する。

cd comebin_test_data/
run_comebin.sh -a BATS_SAMN07137077_METAG.scaffolds.min500.fasta.f1k.fasta \
-p bamfiles -o run_comebin_test -n 6 -t 40
  • -a     metagenomic assembly file
  • -o     output directory
  • -n     number of views for contrastive multiple-view learning (default=6)
  • -t      number of threads (default=5) 

 

CPUモードのランでは数時間かかった。

出力

run_comebin_test/

comebin_res/

comebin_res_bins/

 

  • fastqからbamをワンストップで生成するため、MetaWRAPの "binning.sh "を修正したスクリプトが用意されている。

引用

Effective binning of metagenomic contigs using contrastive multi-view representation learning
Ziye Wang, Ronghui You, Haitao Han, Wei Liu, Fengzhu Sun & Shanfeng Zhu 
Nature Communications volume 15, Article number: 585 (2024)