macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

De novoゲノムアセンブリのためのディープラーニングフレームワーク GNNome

 

 すべてのde novoゲノムアセンブラにおいて重要な段階は、再構成されたゲノム配列に対応するアセンブラグラフのパスを特定することである。既存のアルゴリズム手法では、主に繰り返し領域が複雑なグラフのもつれを引き起こし、断片的なアセンブリにつながるため、この作業に苦労している。ここでは、幾何学ディープラーニングに基づくパス同定のためのフレームワークであるGNNomeを紹介する。この問題に固有の対称性だけを活用することで、GNNomeはPacBio HiFiリードからアセンブリを再構築し、いくつかの生物種において、最先端のツールに匹敵する連続性と品質を実現した。新しいゲノムがテロメアからテロメアまでアセンブルされるたびに、自由に使える信頼できるトレーニングデータの量は増えていく。多様なゲノム構造に対する豊富なシミュレーションデータを簡単に生成できることと、AIアプローチを組み合わせることで、提案するフレームワークは、倍数体や異数体の程度が異なる複雑なゲノムを再構築するための将来の研究の基礎となる。このような開発を促進するために、本著者らは、新しいハプロイドゲノムを組み立てるために直接利用できるツールとして、このフレームワークと最高の性能を持つモデルを公開する。

 

インストール

Github

git clone https://github.com/lbcb-sci/GNNome.git
cd GNNome
mamba create -n gnnome python=3.8 -y
conda activate gnnome

#依存関係
mamba install cmake zlib -y
mamba install cudatoolkit=11.0 -y
#For GPU and CUDA 11.0+
pip install -r requirements.txt

#Install tools used for constructing assembly graphs (pbsim3やraven、hifiasmなど、エラーが出る場合は個別にビルドしていく)
python install_tools.py

python create_inference_graphs.py -h

usage: create_inference_graphs.py [-h] [--gfa GFA] [--reads READS] [--asm ASM] [--out OUT] [--paf PAF]

 

optional arguments:

  -h, --help     show this help message and exit

  --gfa GFA      Path to the GFA graph file

  --reads READS  Path to the FASTA/Q reads file

  --asm ASM      Assembler used

  --out OUT      Output directory

  --paf PAF      Path to the PAF file

 

テストラン

新しいゲノムでモデルを実行するには、まず別のアセンブラを実行する必要がある。また、このツールはハプロイドアセンブリ用に最適化されている。hifiasmの使用が推奨されている。

 

1,HiFiアセンブリアセンブリグラフの構築)

./vendor/hifiasm-0.18.8/hifiasm --prt-raw -o example/hifiasm/output/ecoli_asm -t32 -l0 example/ecoli.fasta.gz

#fastaに変換(比較のため)
awk '/^S/{print ">"$2;print $3}' example/hifiasm/output/ecoli_asm.bp.p_ctg.gfa > example/hifiasm/output/test.p_ctg.fa

 

出力

 

2,必要なデータ構造の構築(FASTA/Q形式のリードとGFA形式のグラフから、DGL形式のグラフと補助データを作成する。)

python create_inference_graphs.py --reads example/ecoli.fasta.gz --gfa example/hifiasm/output/ecoli_asm.bp.raw.r_utg.gfa --asm hifiasm --out example

1分以内に終了した。

example/hifiasm/processed/とexample/hifiasm/info/ができる。

 

3,推論モジュールの実行。deafultモデルでエッジ確率を計算する。

python inference.py --data example --asm hifiasm --out example/hifiasm

example/hifiasm/にassembly, decode, checkpointが作成される。

example/hifiasm/assembly/

(example/hifiasm/assembly/0_assembly.fastaが推論後のアセンブリ配列)

 

その他

  • ONTシーケンスからアセンブリグラフを構築する場合、Ravenの使用が推奨されている。
  • レポジトリでは、PBSIM3によるトレーニングデータ生成とモデルのトレーニングについても説明されている(近縁種で訓練する)。

引用

Geometric deep learning framework for de novo genome assembly

Lovro Vrček, Xavier Bresson, Thomas Laurent, Martin Schmitz, Kenji Kawaguchi, Mile Šikić

Genome Res. 2025 Apr 14;35(4):839-849. doi: 10.1101/gr.279307.124.