構造変異(SV)の研究は急速に拡大している。その結果、第三世代シークエンシング技術のおかげで、特にヒトゲノムにおいて発見されたSVの数が増加している。同時に、臨床診断のようないくつかのアプリケーションでは、新たにシーケンシングされた個体を、よく定義された特徴的なSVでジェノタイピングすることが重要になる。これまでに、ショートリードデータを対象としたSVジェノタイピングツールはいくつか開発されているが、Pacific BiosciencesやOxford Nanopore Technologiesのように、新たにロングリードシーケンスされたサンプルに既知のSVが存在するかどうかを評価するための専用のツールはなかった。
ロングリードシーケンシングデータから既知のSVをジェノタイピングする新しい方法を提示する。この方法は、各構造変異の2つの対立遺伝子を表す代表的な対立遺伝子配列のセットを生成することに基づいている。ロングリードは、これらの対立遺伝子配列にアラインメントされる。アライメントを解析し、情報量の多いものだけを残すようにフィルタリングして、各SV対立遺伝子の存在と対立遺伝子頻度を定量化して推定する。長いリードを持つSVをジェノタイプ化するためのSVJedi法の実装を提供する。この手法は、シミュレーションと実データセットの両方に適用され、高いジェノタイピング精度を達成した。本研究では、SVJediが他の既存のロングリードジェノタイピングツールよりも優れた性能を有していることを示し、また、他のアプローチ、すなわちSV発見やショートリードSVジェノタイピングアプローチと比較して、SVジェノタイピングが大幅に改善されていることを示した。
インストール
依存
- Python3
- Minimap2
- NumPy
- Biopython
#bioconda(link)
conda install -c bioconda -y svjedi
> svjedi.py -h
$ svjedi.py -h
usage: svjedi.py [-h] [--version] -v <vcffile> [-r <refgenomefile>]
[-a <refallelefile>] [-i [<readfile> [<readfile> ...]]]
[-p <paffile>] [-t <nb_threads>] [-o <output>]
[-dover <dist_overlap>] [-dend <dist_end>] [-ms <minNbAln>]
[-d [<seq data type>]]
Structural variations genotyping using long reads
optional arguments:
-h, --help show this help message and exit
--version show program's version number and exit
-v <vcffile>, --vcf <vcffile>
vcf format
-r <refgenomefile>, --ref <refgenomefile>
fasta format
-a <refallelefile>, --allele <refallelefile>
fasta format
-i [<readfile> [<readfile> ...]], --input [<readfile> [<readfile> ...]]
reads
-p <paffile>, --paf <paffile>
PAF format
-t <nb_threads>, --threads <nb_threads>
Number of threads
-o <output>, --output <output>
genotype output file
-dover <dist_overlap>
breakpoint distance overlap
-dend <dist_end> soft clipping length allowed for semi global
alingments
-ms <minNbAln>, --minsupport <minNbAln>
Minimum number of alignments to genotype a SV
(default: 3>=)
-d [<seq data type>], --data [<seq data type>]
テストラン
git clone https://github.com/llecompte/SVJedi.git
cd SVJedi/HG002_son/
svjedi.py -v test.vcf -r genome.fasta -i simulated-reads.fastq.gz
入力(test.vcf)
出力(genotype_results.vcf)
引用
SVJedi: Genotyping structural variations with long reads
Lolita Lecompte, Pierre Peterlongo, Dominique Lavenier, Claire Lemaitre
Bioinformatics, Published: 21 May 2020