macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

クオリティトリミングツール sickle

 

sickleはfastqのクオリティトリミングツール。リード長の0.1倍のウィンドウサイズでリードを分析し、指定値以下のクオリティになった領域をトリムする。Trimmomaticと同様、ペアリードの順番が破壊されないよう、ペアの数を同じに揃えて出力できる(orphanなリードは別出力)。

 

 

インストール

Github

GitHub - najoshi/sickle: Windowed Adaptive Trimming for fastq files using quality

brewで導入できる。

brew install sickle

 

 

入出力について

  • 対応クオリティフォーマット

=> Illumina、Solexa、Sanger。

 

  • 3行目の+のラインは入力に関わらずCASAVA >= 1.8で標準の+だけで出力される。
  • gzip圧縮ファイルの入力にも対応。
  • 出力はdefaulでは非圧縮fastq。

 

 

ラン

シングルエンド。Q30以下の領域をトリムし、40-bp以下になったリードは除く。

sickle se -f single.fastq -t sanger -o trimmed_output.fastq -q 30 -l 40
  • se single-end sequence trimming
  • -f Input fastq file (required)
  • -t Type of quality values (solexa (CASAVA < 1.3), illumina (CASAVA 1.3 to 1.7), sanger (which is CASAVA >= 1.8)) (required)
  • -o Output trimmed fastq file (required)
  • -q Threshold for trimming based on average quality in a window. Default 20.
  • -l  Threshold to keep a read based on length after trimming. Default 20.
  • -x Don't do five prime trimming.

-xをつけると3'側のみがトリミング対象になる。

 

 

ペアーエンド。Q30以下の領域をトリムし、20-bp以下になったリードは除く。

sickle pe -f R1.fastq -r R2.fastq -t sanger -o trimmed_R1.fastq -p trimmed_R2.fastq -s trimmed_singles.fastq -q 30 -l 20
  • pe paired-end sequence trimming
  • -f Input paired-end forward fastq file (Input files must have same number of records)
  • -r Input paired-end reverse fastq file
  • -o Output trimmed forward fastq file
  • -p Output trimmed reverse fastq file. Must use
  • -s --output-single, Output trimmed singles fastq file
  • -q Threshold for trimming based on average quality in a window. Default 20.
  • -l Threshold to keep a read based on length after trimming. Default 20.
  • -n Truncate sequences at position of first N.

 

ペアーエンドのインターレースファイル。

sickle pe -c interlace.fastq -t sanger -m interlace_trimmed.fastq -s trimmed_singles.fastq
  • -c Combined (interleaved) input paired-end fastq
  • -m Output combined (interleaved) paired-end fastq file. Must use -s option.
  • -M Output combined (interleaved) paired-end fastq file with any discarded read written to output file as a single N. Cannot be used with the -s option.

 

 

 

Q30トリムテスト

最近シーケンスしたデータを使う。

p='R1.fq' 
q='R2.fq'
mkdir raw_data_qc_reports
mkdir Quality30_trimmed_reports
sickle pe -f $p -r $q -t sanger -o ${p%.fastq}_Q30_trimmed.fastq -p ${q%.fastq}_Q30_trimmed.fastq -s trimmed_singles.fastq -q 30 -l 20

 

fastqcで分析

fastqc --nogroup -o ./raw_data_qc_reports $p $q 

 

brefore

f:id:kazumaxneo:20170907172550j:plain

after

a=${p%.fastq}_Q30_trimmed.fastq 
b=${q%.fastq}_Q30_trimmed.fastq
fastqc --nogroup -o ./Quality30_trimmed_reports $a $b

f:id:kazumaxneo:20170907172606j:plain

 

 

引用

Sickle: A sliding-window, adaptive, quality-based trimming tool for FastQ files (Version 1.33)

Joshi NA, Fass JN. (2011).

[Software]. Available at https://github.com/najoshi/sickle.