TgaDust2は、アダプター、バーコード、単純リピートなどの不要な情報を見つけて除去するツール。2009年にTagDustが発表され、その後2015年にTagDust2が発表された。
公式サイト
インストール
brewで導入できる。
brew install TagDust
brewではTagDust2が導入されている。
user$ tagdust
Tagdust 2.33, Copyright (C) 2015 Timo Lassmann <timolassmann@gmail.com>
Usage: tagdust [options] <file> -o <output prefix>
Options:
-Q FLT confidence threshold [20].
-l STR log file directory name.
-start INT start of search area [0].
-end INT end of search area [length of sequence].
-format STR format of input sequence file.
-minlen INT minimal accepted read length [16].
-ref STR reference fasta file to be compared against[].
-fe INT number of errors allowed when comparing to reference[2].
-dust INT remove low complexity sequences. [100].
-e FLT expected sequencer error rate [0.05].
-o STR output file name.
-a STR output file for artifacts [NA].
-t INT number of threads [8].
-show_finger_seq NA print fingerprint as sequence (default is as base 4 number).
-h/help NA print help.
-v/version NA print version number.
-1 STR type of the first HMM building block.
-2 STR type of the second HMM building block.
-... STR type of the . . . HMM building block.
実行方法
tagdust adapter.fasta input.fastq -e 0.05 -fe 2 -o output.fastq -a artifactual.fastq -t 12
- -dust remove low complexity sequences. [100].
- -e expected sequencer error rate [0.05].
- -o output file name.
- -a output file for artifacts [NA].
- -t number of threads [8].
- -fe number of errors allowed when comparing to reference[2].
- -minlen minimal accepted read length [16].
Scytheのオーサーらは、Scytheでアダプター除去し、Scytheで除けなかった5'側のアダプターなどをTagDustで除去する2段構えのアダプター除去プロセスを提案しています(その場合のワークフローは、Scythe-> TagDust2 -> クオリティトリミング-> QC、の流れにすべきとしています)。Scytheは以前紹介しています。
引用
TagDust--a program to eliminate artifacts from next generation sequencing data
Lassmann T, Hayashizaki Y, Daub CO
Bioinformatics. 2009 Nov 1;25(21):2839-40
TagDust2: a generic method to extract reads from sequencing data
Lassmann T
BMC Bioinformatics. 2015 Jan 28;16:24
http://catway.jp/bioinformatics/qc/removeseq.html