macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

クオリティトリミングを行う condetri

condetriはペアリードを考量してクオリティトリミングが行えるperlのツール。

 

公式サイト

https://code.google.com/archive/p/condetri/

マニュアル

ダウンロードしたディレクトリにPDFマニュアルあり。

 

インストール

本体はperlスクリプトである。

GIthub

ダウンロードしてパスを通す。

 

実行方法

perl condetri.pl -fastq1=R1.fq -fastq2=R2.fq -prefix=output -cutfirst=i -hq=i -lq=i -frac=[0,1] -minlen=i -mh=i -ml=i -sc=i -rmN
  • -fastq1=file  Fastq(.gz) file. If a second file is given, the files are trimmed-fastq1=file Fastq(.gz) file. If a second file is given, the files are trimmed
  • -fastq2=file as a pair. The reads must have the same order in both files.
  • -prefix=string Prefix for the output file(s). The filtered fastq file(s) will be named prefix_trim1.fastq (and prefix_trim2.fastq if present). For pairs,  a third file will be given with unpaired reads (reads from pairs where one   low quality read has been removed).
  • -cutfirst=i Remove i first bases from the 5'end before any trimming [0].-cutfirst=i Remove i first bases from the 5'end before any trimming [0].
  • -cutlast=i Remove i bases from the 3'end before any trimming [0].-cutlast=i Remove i bases from the 3'end before any trimming [0].
  • -rmN  Remove non-ATCG bases from 5'end before any trimming [no].
  • -hq=i Hiqh quality threshold [25].-hq=i Hiqh quality threshold [25].
  • -lq=i Low quality threshold [10].
  • -frac=[0,1]  Fraction of read that must exceed hq [0.8].
  • -lfrac=[0,1]  Maximum fraction of bases with qual<lq [0].
  • -minlen=i  Min allowed read length [50].

 

 

ペアリードの順番が壊れないように動作するトリミングツールは他にもいくつかあります。Trimmomaticなどがよく知られていますが、ここではsickleを紹介しています。

condetriのパッケージにはPCRのduplicationを除くスクリプトも同梱されている。

引用

ConDeTri - A Content Dependent Read Trimmer for Illumina Data.

Smeds L, Künstner A (2011)

PLoS ONE 6(10): e26314. doi:10.1371/journal.pone.0026314