ここでは、リードのフェージング情報を遺伝子型尤度に組み込むことでSVの遺伝子型判定を改善する手法SVUPPを提案する。包括的なベンチマーク評価により、SVUPPは近傍にSVが存在しない場合のSV遺伝子型判定において、オックスフォード・ナノポア・テクノロジーズ(ONT)の長鎖・ウルトラロングデータおよびパシフィック・バイオサイエンシズ(PacBio)HiFiデータの両方において、cuteSV2、Sniffles2、kanpigよりも高い精度を達成したことを示した。SVUPPはcuteSV2などのSVコールツールと併用可能であり、QUILT2などのリファレンスパネルベースフェージング手法、あるいはWhatsHapなどのリファレンスフリーフェージング手法からリードごとのフェージング情報を取得する。SVUPPはNextflowでモジュール設計され、https://github.com/Zilong-Li/SVUPPより無料で利用可能である。
インストール
git clone https://github.com/Zilong-Li/SVUPP
cd SVUPP
#singularityイメージを使う場合、SVUPPディレクトリの直下でsvupp.sifをビルド
apptainer build containers/svupp.sif containers/svupp.def
=> containers/svupp.sifができる
テストラン
1、1KGからテストデータをダウンロードする。
cd SVUPP
bash ./scripts/download-examples.sh
humanリファレンス、NA12878.hg38.cram、phased reference panel(VCFファイル)、QUILTのgenetic map、構造変異リストなどがダウンロードされる。
tests/

ランするにはリファレンスのパネル情報のCSVと
refpanel.csv

必須の4つの列「chrom,genetic_map,vcf,vcf_index」が必要。VCFファイルとBCFファイルの両方が使用可能。リファレンスパネルは1000 Genomes Projectからダウンロードできる: https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000G_2504_high_coverage/working/20201028_3202_phased
また、遺伝マップはQUILTのウェブサイトからダウンロードできる。 https://github.com/rwdavies/QUILT/tree/master/maps
あるいは、RData形式で準備済みの1000ゲノム参照パネルを直接ダウンロードできる (解説ページ)。
samples.csvも必要。これはサンプル指定のためのスプレッドシートで、「batch,sample,bam,bai,fasta,fai」の6つの必須列が含まれている必要がある。

batchとサンプルごとにbam, bai, fasta, faiファイルのパスを指定。
プロファイルをcondaかdockerか、singularity imageかを指定して実行する。
nextflow run main.nf -profile singularity --refpanel tests/refpanel.csv --samples tests/samples.csv --svfile tests/delins.sniffles.hg38.liftedT2T.13Nov2023.nygc.vcf.gz
出力例

作成中
引用
Pre-phasing long reads improves structural variant genotyping
Zilong Li, Frederik Filip Stæger, Robert W Davies, Ida Moltke, Anders Albrechtsen Author Notes
Bioinformatics, Published: 24 October 2025 Article history
関連