macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

GATKでの変異のフィルタリング条件の分析

前回、ニューヨーク大のindel検出のワークフローを紹介したが、その中で

Haplotypercallerの検出結果のフィルタリングを以下のような条件で行なった。

java -jar GenomeAnalysisTK.jar -T VariantFiltration -R ref.fa -V raw_snps.vcf --filterExpression 'QD < 2.0 || FS > 60.0 || MQ < 40.0 || MQRankSum < -12.5 || ReadPosRankSum < -8.0 || SOR > 4.0' --filterName "basic_snp_filter" -o filtered_snps.vcf

上記はSNPsのフィルタリングの例で、5つのフィルターが設けられている。

QD < 2.0 #QualByDepth。

FS > 60.0 #FisherStrand。

MQ < 40.0 #RMSMappingQuality。

MQRankSum < -12.5 #MappingQualityRankSumTest 

ReadPosRankSum < -8.0

 

それぞれのパラメータと数値の意味については、GATKのページに論理的な説明がなされている。そのページを読むとわかるが、VQSRの補正は人のSNPs情報などを元にexomeデータなどの補正を行うパイプライン(クオリティ補正を行うBQSRとは異なる)。

 

QD: quallity score (6列目の値) をリード数で割って正規化した値。QDが2以下になるとVQSRを通らないものの割合が極端に増えるため、QD<2が使われている。

 

 

作成途中