macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アダンプタートリミングツール TagDust2

 

TgaDust2は、アダプター、バーコード、単純リピートなどの不要な情報を見つけて除去するツール。2009年にTagDustが発表され、その後2015年にTagDust2が発表された。

 

公式サイト

TagDust

 

インストール

brewで導入できる。

brew install TagDust

brewではTagDust2が導入されている。

user$ tagdust

 

Tagdust 2.33, Copyright (C) 2015 Timo Lassmann <timolassmann@gmail.com>

 

Usage:   tagdust [options] <file>  -o <output prefix> 

 

Options:

-Q                      FLT       confidence threshold [20].    

-l                      STR       log file directory name.      

-start                  INT       start of search area [0].     

-end                    INT       end of search area [length of sequence].

-format                 STR       format of input sequence file.

-minlen                INT       minimal accepted read length [16].

-ref                    STR       reference fasta file to be compared against[].

-fe                     INT       number of errors allowed when comparing to reference[2].

-dust                   INT       remove low complexity sequences. [100].

-e                      FLT       expected sequencer error rate [0.05].

-o                      STR       output file name.             

-a                      STR       output file for artifacts [NA].

-t                      INT       number of threads [8].        

-show_finger_seq         NA       print fingerprint as sequence (default is as base 4 number).

-h/help                  NA       print help.                   

-v/version               NA       print version number.         

-1                      STR       type of the first HMM building block.

-2                      STR       type of the second HMM building block.

-...                    STR       type of the . . . HMM building block.

 

 

実行方法

tagdust adapter.fasta input.fastq -e 0.05 -fe 2 -o output.fastq -a artifactual.fastq -t 12
  • -dust remove low complexity sequences. [100].
  • -e expected sequencer error rate [0.05].
  • -o output file name.
  • -a output file for artifacts [NA].
  • -t number of threads [8].
  • -fe number of errors allowed when comparing to reference[2].
  • -minlen minimal accepted read length [16].

 

 Scytheのオーサーらは、Scytheでアダプター除去し、Scytheで除けなかった5'側のアダプターなどをTagDustで除去する2段構えのアダプター除去プロセスを提案しています(その場合のワークフローは、Scythe-> TagDust2 -> クオリティトリミング-> QC、の流れにすべきとしています)。Scytheは以前紹介しています。

 

引用

TagDust--a program to eliminate artifacts from next generation sequencing data

Lassmann T, Hayashizaki Y, Daub CO

Bioinformatics. 2009 Nov 1;25(21):2839-40

 

TagDust2: a generic method to extract reads from sequencing data

Lassmann T

BMC Bioinformatics. 2015 Jan 28;16:24

 

http://catway.jp/bioinformatics/qc/removeseq.html