macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

qplotでマッピングを評価する

 

qplotはマッピング結果の統計情報を出力したり、empiricalなクオリティスコアとマッピング結果から求めたベースクオリティスコアの差などをグラフ化したPDFを出力することができる(既知SNPsファイルが必要)。クオリティの低い塩基(バーコードとか)が残っていないか、複数シーケンスした中でクオリティが極端に悪いサンプルが混じっていないかなど、いわゆるクオリティチェックに使えるツールである。2013年に論文が発表された。

 

 

インストール

Github

https://github.com/BioInfoTools/qplot#Binary_Download

ソースからビルドする。

cd qplot-master/
cd ../libStatGen; make cloneLib #必要なライブラリlibStatGenをビルド
cd ../qplot-master/
make #qplotをビルド
sudo mv bin/qplot /usr/local/bin/

 bin/にqplotができる。パスが通った場所に移動させるかリンクを貼る。

 

またはバイナリをダウンロードする。ヒューマンのdbSNPなどもダウンロードされる。

qplot.20130627.tar.gz (File Size: 1.7G)

 

 

ラン

Githubでは人をターゲットに議論されているが、コントロールのSNPデータベースがあるなら、どんな生物でも解析できる。例えば野生株のSNPリストを使いbamを評価する。

qplot --stats qplot.stats --dbsnp gatk.vcf --reference input.fasta sorted.bam

 

Stats\BAM sorted.bam

TotalReads(e6) 0.53

MappingRate(%) 99.80

MapRate_MQpass(%) 99.80

TargetMapping(%) 0.00

ZeroMapQual(%) 2.24

MapQual<10(%) 2.26

PairedReads(%) 100.00

ProperPaired(%) 98.62

MappedBases(e9) 0.15

Q20Bases(e9) 0.15

Q20BasesPct(%) 96.74

MeanDepth 39.10

GenomeCover(%) 99.84

EPS_MSE 2.61

EPS_Cycle_Mean 26.19

GCBiasMSE 0.00

ISize_mode 383

ISize_medium 401

SecondaryRate(%) 0.00

DupRate(%) 0.00

QCFailRate(%) 0.00

BaseComp_A(%) 26.4

BaseComp_C(%) 23.6

BaseComp_G(%) 23.5

BaseComp_T(%) 26.5

BaseComp_O(%) 0.0

Depth>=1(%) 99.8

Depth>=5(%) 99.8

Depth>=10(%) 99.8

Depth>=15(%) 99.6

Depth>=25(%) 95.2

Depth>=30(%) 84.7

 

 

summaryグラフも出力させる。

qplot --plot qplot.pdf --stats qplot.stats --Rcode qplot.R --dbsnp gatk.vcf --reference input.fasta sorted.bam

 

f:id:kazumaxneo:20170909050645j:plain

f:id:kazumaxneo:20170909050648j:plain

 

illuminaのempirical base quality scoresとreported base quality scoresはほぼ同じとされているが、SOLiDなどはマッピングできない領域をトリムしてマッピングするためか、reported base quality scoresがやや低くなる傾向がある。

 

 

引用

QPLOT: A Quality Assessment Tool for Next Generation Sequencing Data

Bingshan Li, 1 ,* Xiaowei Zhan, 2 Mary-Kate Wing, 2 Paul Anderson, 2 Hyun Min Kang, 2 and Goncalo R. Abecasis 2 ,*

Biomed Res Int. 2013; 2013: 865181.