macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

バリアントコール結果のVCFフォーマット

詳細はsamtoolsのVCFフォーマットオフィシャルページに書いてあるが、ここでもう少し噛み砕いて説明する。

 

 

以下はGATK haplotypecallerで変異検出して出力されたVCFファイルのコメント1行と変異コールの1行を表示したものである。 

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT sample_1 
chr 7438 . T C 1086.77 PASS AC=2;AF=1.00;AN=2;DP=25;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=43.50;QD=34.24;SOR=1.136 GT:AD:DP:GQ:PL 1/1:0,25:25:75:1115,75,0

 

カラムを左から見ていく。まず1−5列目

#CHROM POS ID REF ALT 
chr 7438 . T C

#CHROM リファレンスfastaのヘッダー名

#POS ポジション

#ID ID

#REF リファレンス塩基

#ALT リードから読み取ったリファレンスと異なる塩基(上だとC -> Tに置換)

 

6列目

QUAL
1086.77

quality scoreの値。この値は検出ソフトによって定義が変わるので、ツール間で比較することはできない。gatkのhaplotypercallerの場合、マッピングのクオリティを表すmapping quality scoreをリードの数だけ足した合計値に近い値になるが(すなわち大きいほどエラーの可能性は低い)、もう少し複雑な計算をされているしい。いずれにせよカバレッジによって値は大きく変わる。例えばカバレッジが1ならどんなにクオリティが高くても2桁にしかならない。繰り返し配列を含む領域では5、6桁以上になったりするので、この値は直接フィルタリングに使えるのもではないらしい。7列目にはこの値をリード数で正規化したQD値が記載されている。

mapping qualityについてはこちらを参照。

 

7列目

FILTER
PASS

多くのidnel解析ソフトではフィルリングが終わっているとPASSと付く。フィルタリングを通らないと、例えばGATKでは自分が決めた名前 (e.g., basic_snp_filter) と付く。またフィルタリングが実行されていないと "."(ピリオド)になっている。

VCFフォーマットの定義では1-7列目まで必須となっている。

 

8列目

INFO
AC=2;AF=1.00;AN=2;DP=25;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=43.50;QD=34.24;SOR=1.136

追加情報。 "英数字混じりの文字=数字"で状態を表現し、それをセミコロンで区切るように規定されている。標準で以下のような内容がある。snpEffなどで検出した変異のアノテーション情報などもここに記載される。

 

  • AA ancestral allele 先祖型の対立遺伝子
  • AC allele count in genotypes, for each ALT allele, in the same order as listed
  • AF allele frequency for each ALT allele in the same order as listed: use this when estimated from primary data, not called genotypes
  • AN total number of alleles in called genotypes
  • BQ RMS base quality at this position
  • CIGAR cigar string describing how to align an alternate allele to the reference allele
  • DB dbSNP membership
  • DP combined depth across samples, e.g. DP=154
  • END end position of the variant described in this record (esp. for CNVs)
  • H2 membership in hapmap2
  • MQ RMS mapping quality, e.g. MQ=52
  • MQ0 Number of MAPQ == 0 reads covering this record
  • NS Number of samples with data
  • SB strand bias at this position
  • SOMATIC indicates that the record is a somatic mutation, for cancer genomics
  • VALIDATED validated by follow-up experiment

 GATKの場合、上のようにQD、FS, SORなどのパラメータも追加されている。

 

ここまでが必須のフィールドであるが、gatkでは9、10列目にサンプルのgenotype、カバレッジなどの情報を記している(詳細はGATKのhttp://gatkforums.broadinstitute.org/gatk/discussion/1268/what-is-a-vcf-and-how-should-i-interpret-itを参照)。以下のように9-10列目は連動している。

FORMAT       sample1
GT:AD:DP:GQ:PL 1/1:0,25:25:75:1115,75,0

セミコロンで5つの情報を表している。順番に説明する。

GT: genotype。0/0ならリファレンスのホモ、1/1ならコールされた塩基のホモ、0/1ならヘテロと解釈されたことになる。上だと1/1なのでALTのホモになる。ポリプロイドゲノムだと他の数値も出るらしい。

AD: allele depth。フィルター無し状態でのカバレッジ

DP: filtered depth。フィルターあり状態でのカバレッジ

GQ: Quality of the assigned genotype。Phread-scaleでのジェのタイピングの信頼値で次のPLと関係している。上限は99に規定されており、高いほどホモ、ヘテロコールの信頼度が高いらしい。

PL: Normalized" Phred-scaled likelihoods of the possible genotypes.正規化したもっともらしさの尺度らしい。GTは大抵0/0から1/1の間を取るので、PLは大抵0になるよう補正されている。

 

 

 

 

 

 wikiにもまとめられている。