現在、多くの生物種や個体において、 de novo phased diploid genome assembliesが実現可能である。そのため、アセンブリの精度を検証し、オーソログシーケンスデータによるミスアセンブリを検出し、ダウンストリーム解析を確実に行うための手法が求められている。GAVISUNKは、Pacific Biosciencesの高忠実度アセンブリとOxford Nanopore Technologiesの生リードにおけるユニークk-mer間の距離の一致を評価することにより、ミスアセンブリを検出し、ゲノム全体の信頼できる領域を生成するオープンソースのパイプラインを開発した。GAVISUNKは https://github.com/pdishuck/GAVISUNK から入手できる。
GAVISUNKはONT配列を用いて、2倍体HiFiアセンブリを検証する。GAVISUNKは、ハプロタイプスイッチやミスアセンブリの可能性を示す領域の連続性を特に評価する。ONTプラットフォームは、HiFiと比較してエラー率が著しく高いが、そのようなリードは通常はるかに長いため、関心領域全体の連続性とリード深度の両方を評価する強力な独立したアプローチとなる。ENCODEコンソーシアムで使用されているような、これまでのゲノムブラックリストやアクセス不能領域のマスクがリファレンスゲノムのアノテーションに基づいて決定されるのに対し、GAVISUNKはどの領域やゲノムアセンブリにも適用してミスアセンブリや崩壊の可能性を特定できるため、特にアセンブリエラーが起こりやすい大規模かつ高同一性の繰り返しがある領域の完全性を検証する際に有用である。本手法は、ゲノム全体に適用することも、複数のハプロタイプアセンブリにまたがる関心領域を精査するためにファインスケールで適用することもできる。
インストール
依存
・snakemake
#snakemake
mamba install -c conda-forge -c bioconda snakemake
git clone https://github.com/pdishuck/GAVISUNK
cd GAVISUNK
テストラン
configファイルを指定する。
cd GAVISUNK/
snakemake -R --use-conda --cores 8 --configfile .test/config.yaml --resources load=1000
configファイルには検証用ONTデータ "ont.tsv "(下参照)、kmer長の指定が必要。
またオプションでより詳細なプロットを出力するplot_detailedを設定する。上ではTrue(より多くのRAMを使用する、実験的)。
test/config.yaml
ONTデータ "ont.tsv "
test/data/ont.tsv
出力
テストランでは、アミラーゼ重複遺伝子座で検出されたミスアセンブリ(HG02723父系ハプロタイプ)の例などが調べられる(論文図1)。
AMY_HG02723_hap1_AMY_h1_100000_500000.pdf
引用
GAVISUNK: genome assembly validation via inter-SUNK distances in Oxford Nanopore reads
Philip C Dishuck, Allison N Rozanski, Glennis A Logsdon, David Porubsky, Evan E Eichler
Bioinformatics, Volume 39, Issue 1, January 2023, btac714