すべてのde novoゲノムアセンブラにおいて重要な段階は、再構成されたゲノム配列に対応するアセンブラグラフのパスを特定することである。既存のアルゴリズム手法では、主に繰り返し領域が複雑なグラフのもつれを引き起こし、断片的なアセンブリにつながるため、この作業に苦労している。ここでは、幾何学的ディープラーニングに基づくパス同定のためのフレームワークであるGNNomeを紹介する。この問題に固有の対称性だけを活用することで、GNNomeはPacBio HiFiリードからアセンブリを再構築し、いくつかの生物種において、最先端のツールに匹敵する連続性と品質を実現した。新しいゲノムがテロメアからテロメアまでアセンブルされるたびに、自由に使える信頼できるトレーニングデータの量は増えていく。多様なゲノム構造に対する豊富なシミュレーションデータを簡単に生成できることと、AIアプローチを組み合わせることで、提案するフレームワークは、倍数体や異数体の程度が異なる複雑なゲノムを再構築するための将来の研究の基礎となる。このような開発を促進するために、本著者らは、新しいハプロイドゲノムを組み立てるために直接利用できるツールとして、このフレームワークと最高の性能を持つモデルを公開する。
インストール
git clone https://github.com/lbcb-sci/GNNome.git
cd GNNome
mamba create -n gnnome python=3.8 -y
conda activate gnnome
#依存関係
mamba install cmake zlib -y
mamba install cudatoolkit=11.0 -y
#For GPU and CUDA 11.0+
pip install -r requirements.txt
#Install tools used for constructing assembly graphs (pbsim3やraven、hifiasmなど、エラーが出る場合は個別にビルドしていく)
python install_tools.py
> python create_inference_graphs.py -h
usage: create_inference_graphs.py [-h] [--gfa GFA] [--reads READS] [--asm ASM] [--out OUT] [--paf PAF]
optional arguments:
-h, --help show this help message and exit
--gfa GFA Path to the GFA graph file
--reads READS Path to the FASTA/Q reads file
--asm ASM Assembler used
--out OUT Output directory
--paf PAF Path to the PAF file
テストラン
新しいゲノムでモデルを実行するには、まず別のアセンブラを実行する必要がある。また、このツールはハプロイドアセンブリ用に最適化されている。hifiasmの使用が推奨されている。
./vendor/hifiasm-0.18.8/hifiasm --prt-raw -o example/hifiasm/output/ecoli_asm -t32 -l0 example/ecoli.fasta.gz
#fastaに変換(比較のため)
awk '/^S/{print ">"$2;print $3}' example/hifiasm/output/ecoli_asm.bp.p_ctg.gfa > example/hifiasm/output/test.p_ctg.fa
出力

2,必要なデータ構造の構築(FASTA/Q形式のリードとGFA形式のグラフから、DGL形式のグラフと補助データを作成する。)
python create_inference_graphs.py --reads example/ecoli.fasta.gz --gfa example/hifiasm/output/ecoli_asm.bp.raw.r_utg.gfa --asm hifiasm --out example

1分以内に終了した。
example/hifiasm/processed/とexample/hifiasm/info/ができる。
3,推論モジュールの実行。deafultモデルでエッジ確率を計算する。
python inference.py --data example --asm hifiasm --out example/hifiasm
example/hifiasm/にassembly, decode, checkpointが作成される。
example/hifiasm/assembly/

(example/hifiasm/assembly/0_assembly.fastaが推論後のアセンブリ配列)
その他
- ONTシーケンスからアセンブリグラフを構築する場合、Ravenの使用が推奨されている。
- レポジトリでは、PBSIM3によるトレーニングデータ生成とモデルのトレーニングについても説明されている(近縁種で訓練する)。
引用
Geometric deep learning framework for de novo genome assembly
Lovro Vrček, Xavier Bresson, Thomas Laurent, Martin Schmitz, Kenji Kawaguchi, Mile Šikić
Genome Res. 2025 Apr 14;35(4):839-849. doi: 10.1101/gr.279307.124.