macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

AfterQCでQC、エラー修復、トリミング、レポート作成を自動実行する

 

AfterQCはfastqのフィルタリング、トリミング、エラー修復、およびクオリティチェックを全て自動で行なってくれるツールである。エラー修復はオーバーラップするペアードエンドリードのクオリティを比較して実行される。2017年に論文が発表された。

 

 

インストール

Github

https://github.com/OpenGene/AfterQC

git clone https://github.com/OpenGene/AfterQC.git

AfterQC/直下にパスを通しておく。 

 

ラン

シングルエンド

python after.py -1 R1.fq

ペアードエンド

python after.py -1 R1.fq -2 R2.fq

fastqのディレクトリを指定してラン(fastqを全て解析)。 

python after.py -d input/

 

ラン中にlogがほとんど出ないので不安になるが、200MBx2のfastqで10分くらいかかるのでいじらず待つ。解析が終わると、ランしたパスに3つのディレクトリができる。

f:id:kazumaxneo:20170917002342j:plain

上では2組のペアードエンドfastqフォルダを解析している。badにはトリミングをパスしなかったリードが収納されており、goodにトリミングされて最低限の長さを満たしたリードが収納されている。ペアリードの順番が崩れないように、goodにはペアリード両方についてPASSしたリードだけ出力されている。

 

 

Q>30でトリミングし、25-bp以下になったリードは破棄する。

python after.py -1 R1.fq -2 R2.fq -q 30 -s 25

 

 フィルタリングオプション

  • -f <int> number of bases to be trimmed in the head of read. -1 means auto detect.
  • -t <int> number of bases to be trimmed in the tail of read. -1 means auto detect.
  • -q <int> the quality value that a base is qualifyed. Default 20 means base quality >=Q20 is qualified.
  • -u <int> if exists more than unqualified_base_limit bases that quality is lower than qualified quality, then this read/pair is bad. Default 0 means do not filter reads by low quality base count.
  • -p <int> POLY_SIZE_LIMIT if exists one polyX(polyG means GGGGGGGGG...), and its length is >= poly_size_limit, then this read/pair is bad. Default is 35.
  • -a <int> the count of allowed mismatches when evaluating poly_X. Default 5 means disallow any mismatches.
  • -n <int> if exists more than maxn bases have N, then this read/pair is bad. Default is 5.
  • -s <int> if the trimmed read is shorter than seq_len_req, then this read/pair is bad. Default is 35.

バブル除去オプション(一般のシーケンスには非推奨)

  • --debubble enable debubble algorithm to remove the reads in the bubbles. Default is False

バーコードオプション

  • --barcode specify whether deal with barcode sequencing files, default is on

クオリティチェックオプション

  • --qc_only enable this option, only QC result will be output, this can be much faster
  • --qc_kmer <int> specify the kmer length for KMER statistics for QC, default is 8

 

QC/には分析結果がhtmlで出力される。html5で描画されており、編集可能である。

f:id:kazumaxneo:20170917004054j:plain

f:id:kazumaxneo:20170917003650j:plain

f:id:kazumaxneo:20170917003652j:plain

f:id:kazumaxneo:20170917003656j:plain

f:id:kazumaxneo:20170917003659j:plain

f:id:kazumaxneo:20170917003703j:plain

f:id:kazumaxneo:20170917003706j:plain

f:id:kazumaxneo:20170917003709j:plain

f:id:kazumaxneo:20170917003713j:plain

f:id:kazumaxneo:20170917003717j:plain

f:id:kazumaxneo:20170917003723j:plain

f:id:kazumaxneo:20170917003729j:plain

f:id:kazumaxneo:20170917003726j:plain

f:id:kazumaxneo:20170917003732j:plain

 

 

 

AfterQCの 動作はfastqcとBBtools、scytheなどのツールを合わせたようなものになっている。動作はやや遅いが、それが気にならないならオススメできる。

 

 

 

引用

AfterQC: automatic filtering, trimming, error removing and quality control for fastq data.

Shifu Chen, Tanxiao Huang, Yanqing Zhou, Yue Han, Mingyan Xu and Jia Gu.

BMC Bioinformatics 2017 18(Suppl 3):80