macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

SVのgenotypingを行うsvtyper

 

svtyperはspeedseqのツールの一部として提供されているvcfのgenotype情報追加ツール。vcfにgenoetype情報を追加して、追加したgenotype情報を元に、主にfilterlingするために使われる。Parliament2でも使用されている。

speedseqは以前紹介しています。

ヒトゲノムの統合変異検出パイプライン speedseq

 

インストール

ubuntu16.04のpython2.7.13環境でテストした(mac os10.12のdocker上にて)。

依存

  • Python 2.7.x
  • svtyper depends on pysam (version 0.15.0 or newer), numpy, and scipy; svtyper-sso additionally depends on cytoolz.

pip install git+https://github.com/hall-lab/svtyper.git

 

実行方法

実行するには、ペアエンドfastqをbwa memでマッピングして作成したBAMファイルと、LUMPYなどでコールしたvcfファイルが必要。

svtyper -i sv.vcf -B sample.bam -l sample.bam.json > sv.gt.vcf

vcfの 9-10フィールドにgenotype情報が追加される。

 

追加される注釈について(VCF formatv4.2仕様書及びvcfファイルヘッダー部分より引用)

GQ : conditional genotype quality, encoded as a phred quality −10log10 p(genotype call is wrong, conditioned on the site’s being variant) (Integer)  

SQ : shows phred quality that the site is non-reference in that particular sample "sample quality" 

GL : genotype likelihoods comprised of comma separated floating point log10-scaled likelihoods for all possible genotypes given the set of alleles defined in the REF and ALT fields.

DP : read depth at this position for this sample (Integer)

RO: Reference allele observation count, with partial observations recorded fractionally

AO: Alternate allele observations, with partial observations recorded fractionally

QR: Sum of quality of reference observations

QA: Sum of quality of alternate observations

RS: Reference allele split-read observation count, with partial observations recorded fractionally

AS: Alternate allele split-read observation count, with partial observations recorded fractionally

ASC: Alternate allele clipped-read observation count, with partial observations recorded fractionally

 

そのほか、scripts/のlib_stats.Rを使えばライブラリのインサートサイズの分布を可視化できる。詳細はGIthubで確認して下さい。

引用

SpeedSeq: ultra-fast personal genome analysis and interpretation.

Chiang C, Layer RM, Faust GG, Lindberg MR, Rose DB, Garrison EP, Marth GT, Quinlan AR, Hall IM

Nat Methods. 2015 Oct;12(10):966-8.

 

関連ツール