最も広く適用されてきたエラー訂正方法は、スペクトルアラインメントの手法で(Pevzner et al。、2001)、これはk -merスペクトルに依存したアルゴリズムとなる。すなわち、与えられた閾値よりも頻繁に発生するk -mer(solidまたは 'trusted')と頻度の低いk -mer(weak)を調べ上げ、ソリッドコールの数を最大限にする手法となる。例えばQuake(Kelley et al。、2010)は、クオリティスコアも組み込んだsolidとweakの分布の混合モデルを作り、最尤法を使用してk-merの数を最大にするセットを計算する。Trowelはこのk -merスペクトルに依存したエラーコレクションツール。誤ったベースコールを修正し、k -merスペクトルに基づいて基本品質を向上させる 。C++で実装されており、高度に並列化されている。
インストール
cent OSに導入した。
https://sourceforge.net/projects/trowel-ec/?source=typ_redirect
バイナリをダウンロードできる。実行権をつけ移動しとく。
chmod u+x trowel.0.2.0.4.linux.64
#パスの通ったディレクトリに移動し、リネーム。
mv trowel.0.2.0.4.linux.64 /usr/local/bin/trowel
trowel #ヘルプ表示
$ trowel
Trowel: An error correction module for genomic FASTQ files(Ver. 0.2.0.4)
=========================================================================
Syntax: trowel2 -f <file_list> [-k]
Options: -f STR a single list file that contains a list of UNCOMPRESSED FASTQ files
-k INT size of pre-mer [DEFAULT: 11] (11-15)
-t INT number of cores [DEFAULT: 40]
Example of a file_list file:
a.thal.chr1.fq a.thal.chr2.fq a.thal.chr3.fq ...
h.sap.chr1.fq h.sap.chr2.fq h.sap.chr3.fq ...
...
Note: 1. trowel only supports FASTQ files.
2. For datasets of high coverage or of large genome, you should use k of 13-15.
3. You have to increase the maximum number of open file limit before running trowel
See: http://ithubinfo.blogspot.in/2013/07/how-to-increase-ulimit-open-file-and.html
ラン
最初に開けるファイルの数を増やす必要がある。
ulimit -n 2048
fastqのパスをファイルに記載し、それを元にランする。
echo input.fq > input
trowel -k 11 -t 20 -f trowelOut/trowelCorrected
引用
Trowel: a fast and accurate error correction module for Illumina sequencing reads.
Lim EC, Müller J, Hagmann J, Henz SR, Kim ST, Weigel D.
Bioinformatics. 2014 Nov 15;30(22):3264-5.
コマンド参考