macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ショートリードのアダプタートリミングツール Trim Galore

 

これまで様々なアダプタートリミングツールが報告されてきている。OMIC toolsで検索すると、2017年6月で35件ヒットする(OMIC toolリンク)。その中でもFastQC、cutadapt、Fastx-toolkitなどはよく耳にする。Trim Galore!はFastQCとcutadaptを内部で動かし、fastqから自動でアダプター配列を認識してトリムするツール。Biostarのhit数を見る限り使っている人も多そうである。インストールして動作を見ていく。

 

 

インストール

公式ページリンク Babraham Bioinformatics - Trim Galore!

Trim Galore!本体はperlスクリプトで、内部でFastQCとcutadaptを動かしてトリムを行う。そのため動作にはFastQCとcutadaptが必要である。この2つを先にインストールしておく。

 

brewで依存するFastQCとcutadaptをインストールする。

brew install cutadapt
brew install FastQC

 

FastQCとcutadaptのインストールが終わったら、公式サイトからTrim Galore!をダウンロードして解凍する。解凍したディレクトリのトップ階層にあるtrim_galoreを/usr/local/bin/に移動する。

ln -s TrimGalore-0.4.3/trim_galore /usr/local/bin

リンクかコピーなどでパスを通す。

 

 

ラン

trim_galore <fastq>

でランできる。

ペアリードなら両方のデータを指定し、--pairedのオプションをつけて実行する。

trim_galore --paired R1.fq R2.fq

出力は入力ファイル名_val_1.fq、入力ファイル名_val_2.fqとなる。

 

自動で認識させないでアダプター配列を明示するには-a <seq>をつける。配列を明示させるオプションは以下のようなものがある。

  • --illumina Adapter sequence to be trimmed is the first 13bp of the Illumina universal adapter 'AGATCGGAAGAGC' instead of the default auto-detection of adapter sequence.
  • --nextera Adapter sequence to be trimmed is the first 12bp of the Nextera adapter 'CTGTCTCTTATA' instead of the default auto-detection of adapter sequence.
  • --small_rna Adapter sequence to be trimmed is the first 12bp of the Illumina Small RNA 3' Adapter 'TGGAATTCTCGG' instead of the default auto-detection of adapter sequence. 

他にも様々なオプションがある。オプションを見るには

trim_galore --help

 

Trim Galore!のデフォルト動作はphread scoreをphred33と認識して行うが、古いIllumina 1.5 encodingのシーケンスデータを使う場合、--phred64をつけて明示する必要がある。

 

 

Nextraで調整されMiseqでランされたペアードエンドデータでテストすると、合計323万bp(データの4%)がトリムされた。

  >>> Now performing quality (cutoff 20) and adapter trimming in a single pass for the adapter sequence: 'AGATCGGAAGAGC' from file T1second_R2.fastq <<< 

This is cutadapt 1.8.3 with Python 2.7.10

Command line parameters: -f fastq -e 0.1 -q 20 -O 1 -a AGATCGGAAGAGC T1second_R2.fastq

Trimming 1 adapter with at most 10.0% errors in single-end mode ...

Finished in 5.59 s (21 us/read; 2.81 M reads/minute).

 

=== Summary ===

 

Total reads processed:                 261,774

Reads with adapters:                    69,845 (26.7%)

Reads written (passing filters):       261,774 (100.0%)

 

Total basepairs processed:    77,820,790 bp

Quality-trimmed:               3,237,687 bp (4.2%)

Total written (filtered):     74,481,043 bp (95.7%)

 

=== Adapter 1 ===

 

Sequence: AGATCGGAAGAGC; Type: regular 3'; Length: 13; Trimmed: 69845 times.

 

No. of allowed errors:

0-9 bp: 0; 10-13 bp: 1

 

Bases preceding removed adapters:

  A: 38.0%

  C: 25.5%

  G: 15.9%

  T: 20.6%

  none/other: 0.0%

 

Overview of removed sequences

length count expect max.err error counts

1 57208 65443.5 0 57208

2 9072 16360.9 0 9072

3 2290 4090.2 0 2290

4 536 1022.6 0 536

5 110 255.6 0 110

6 40 63.9 0 40

7 117 16.0 0 117

8 21 4.0 0 21

9 39 1.0 0 31 8

10 47 0.2 1 29 18