macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードの事前フェーシングでSVジェノタイピングを改善する SVUPP

 

 ここでは、リードのフェージング情報を遺伝子型尤度に組み込むことでSVの遺伝子型判定を改善する手法SVUPPを提案する。包括的なベンチマーク評価により、SVUPPは近傍にSVが存在しない場合のSV遺伝子型判定において、オックスフォード・ナノポア・テクノロジーズ(ONT)の長鎖・ウルトラロングデータおよびパシフィック・バイオサイエンシズ(PacBio)HiFiデータの両方において、cuteSV2、Sniffles2、kanpigよりも高い精度を達成したことを示した。SVUPPはcuteSV2などのSVコールツールと併用可能であり、QUILT2などのリファレンスパネルベースフェージング手法、あるいはWhatsHapなどのリファレンスフリーフェージング手法からリードごとのフェージング情報を取得する。SVUPPはNextflowでモジュール設計され、https://github.com/Zilong-Li/SVUPPより無料で利用可能である。

 

インストール

Github

git clone https://github.com/Zilong-Li/SVUPP
cd SVUPP

#singularityイメージを使う場合、SVUPPディレクトリの直下でsvupp.sifをビルド
apptainer build containers/svupp.sif containers/svupp.def
=> containers/svupp.sifができる

 

テストラン
1、1KGからテストデータをダウンロードする。

cd SVUPP
bash ./scripts/download-examples.sh

humanリファレンス、NA12878.hg38.cram、phased reference panel(VCFファイル)、QUILTのgenetic map、構造変異リストなどがダウンロードされる。

tests/

 

ランするにはリファレンスのパネル情報のCSV

refpanel.csv

必須の4つの列「chrom,genetic_map,vcf,vcf_index」が必要。VCFファイルとBCFファイルの両方が使用可能。リファレンスパネルは1000 Genomes Projectからダウンロードできる: https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000G_2504_high_coverage/working/20201028_3202_phased

また、遺伝マップはQUILTのウェブサイトからダウンロードできる。 https://github.com/rwdavies/QUILT/tree/master/maps

あるいは、RData形式で準備済みの1000ゲノム参照パネルを直接ダウンロードできる (解説ページ)。

 

samples.csvも必要。これはサンプル指定のためのスプレッドシートで、「batch,sample,bam,bai,fasta,fai」の6つの必須列が含まれている必要がある。

batchとサンプルごとにbam, bai, fasta, faiファイルのパスを指定。

 

プロファイルをcondaかdockerか、singularity imageかを指定して実行する。

nextflow run main.nf -profile singularity --refpanel tests/refpanel.csv --samples tests/samples.csv --svfile tests/delins.sniffles.hg38.liftedT2T.13Nov2023.nygc.vcf.gz

 

出力例

 

作成中

 

引用

Pre-phasing long reads improves structural variant genotyping

Zilong Li, Frederik Filip Stæger, Robert W Davies, Ida Moltke, Anders Albrechtsen Author Notes

Bioinformatics,  Published: 24 October 2025 Article history

 

関連