qplotはマッピング結果の統計情報を出力したり、empiricalなクオリティスコアとマッピング結果から求めたベースクオリティスコアの差などをグラフ化したPDFを出力することができる(既知SNPsファイルが必要)。クオリティの低い塩基(バーコードとか)が残っていないか、複数シーケンスした中でクオリティが極端に悪いサンプルが混じっていないかなど、いわゆるクオリティチェックに使えるツールである。2013年に論文が発表された。
インストール
cd qplot-master/
cd ../libStatGen; make cloneLib #必要なライブラリlibStatGenをビルド
cd ../qplot-master/
make #qplotをビルド
sudo mv bin/qplot /usr/local/bin/
bin/にqplotができる。パスが通った場所に移動させるかリンクを貼る。
またはバイナリをダウンロードする。ヒューマンのdbSNPなどもダウンロードされる。
qplot.20130627.tar.gz (File Size: 1.7G)
実行方法
Githubでは人をターゲットに議論されているが、コントロールのSNPデータベースがあるなら、どんな生物でも解析できる。例えば野生株のSNPリストを使いbamを評価する。
qplot --stats qplot.stats --dbsnp gatk.vcf --reference input.fasta sorted.bam
Stats\BAM sorted.bam
TotalReads(e6) 0.53
MappingRate(%) 99.80
MapRate_MQpass(%) 99.80
TargetMapping(%) 0.00
ZeroMapQual(%) 2.24
MapQual<10(%) 2.26
PairedReads(%) 100.00
ProperPaired(%) 98.62
MappedBases(e9) 0.15
Q20Bases(e9) 0.15
Q20BasesPct(%) 96.74
MeanDepth 39.10
GenomeCover(%) 99.84
EPS_MSE 2.61
EPS_Cycle_Mean 26.19
GCBiasMSE 0.00
ISize_mode 383
ISize_medium 401
SecondaryRate(%) 0.00
DupRate(%) 0.00
QCFailRate(%) 0.00
BaseComp_A(%) 26.4
BaseComp_C(%) 23.6
BaseComp_G(%) 23.5
BaseComp_T(%) 26.5
BaseComp_O(%) 0.0
Depth>=1(%) 99.8
Depth>=5(%) 99.8
Depth>=10(%) 99.8
Depth>=15(%) 99.6
Depth>=25(%) 95.2
Depth>=30(%) 84.7
summaryグラフも出力させる。
qplot --plot qplot.pdf --stats qplot.stats --Rcode qplot.R --dbsnp gatk.vcf --reference input.fasta sorted.bam
illuminaのempirical base quality scoresとreported base quality scoresはほぼ同じとされているが、SOLiDなどはマッピングできない領域をトリムしてマッピングするためか、reported base quality scoresがやや低くなる傾向がある。
引用
QPLOT: A Quality Assessment Tool for Next Generation Sequencing Data
Bingshan Li, 1 ,* Xiaowei Zhan, 2 Mary-Kate Wing, 2 Paul Anderson, 2 Hyun Min Kang, 2 and Goncalo R. Abecasis 2 ,*
Biomed Res Int. 2013; 2013: 865181.