svtyperはspeedseqのツールの一部として提供されているvcfのgenotype情報追加ツール。vcfにgenoetype情報を追加して、追加したgenotype情報を元に、主にfilterlingするために使われる。Parliament2でも使用されている。
speedseqは以前紹介しています。
インストール
ubuntu16.04のpython2.7.13環境でテストした(mac os10.12のdocker上にて)。
依存
- Python 2.7.x
- svtyper depends on pysam (version 0.15.0 or newer), numpy, and scipy; svtyper-sso additionally depends on cytoolz.
pip install git+https://github.com/hall-lab/svtyper.git
実行方法
実行するには、ペアエンドfastqをbwa memでマッピングして作成したBAMファイルと、LUMPYなどでコールしたvcfファイルが必要。
svtyper -i sv.vcf -B sample.bam -l sample.bam.json > sv.gt.vcf
vcfの 9-10フィールドにgenotype情報が追加される。
追加される注釈について(VCF formatv4.2仕様書及びvcfファイルヘッダー部分より引用)
GQ : conditional genotype quality, encoded as a phred quality −10log10 p(genotype call is wrong, conditioned on the site’s being variant) (Integer)
SQ : shows phred quality that the site is non-reference in that particular sample "sample quality"
GL : genotype likelihoods comprised of comma separated floating point log10-scaled likelihoods for all possible genotypes given the set of alleles defined in the REF and ALT fields.
DP : read depth at this position for this sample (Integer)
RO: Reference allele observation count, with partial observations recorded fractionally
AO: Alternate allele observations, with partial observations recorded fractionally
QR: Sum of quality of reference observations
QA: Sum of quality of alternate observations
RS: Reference allele split-read observation count, with partial observations recorded fractionally
AS: Alternate allele split-read observation count, with partial observations recorded fractionally
ASC: Alternate allele clipped-read observation count, with partial observations recorded fractionally
そのほか、scripts/のlib_stats.Rを使えばライブラリのインサートサイズの分布を可視化できる。詳細はGIthubで確認して下さい。
引用
SpeedSeq: ultra-fast personal genome analysis and interpretation.
Chiang C, Layer RM, Faust GG, Lindberg MR, Rose DB, Garrison EP, Marth GT, Quinlan AR, Hall IM
Nat Methods. 2015 Oct;12(10):966-8.
関連ツール