macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

エラーコレクションツール Trowel

最も広く適用されてきたエラー訂正方法は、スペクトルアラインメントの手法で(Pevzner et al。、2001)、これはk -merスペクトルに依存したアルゴリズムとなる。すなわち、与えられた閾値よりも頻繁に発生するk -mer(solidまたは 'trusted')と頻度の低いk -mer(weak)を調べ上げ、ソリッドコールの数を最大限にする手法となる。例えばQuake(Kelley et al。、2010)は、クオリティスコアも組み込んだsolidとweakの分布の混合モデルを作り、最尤法を使用してk-merの数を最大にするセットを計算する。Trowelはこのk -merスペクトルに依存したエラーコレクションツール。誤ったベースコールを修正し、k -merスペクトルに基づいて基本品質を向上させる 。C++で実装されており、高度に並列化されている。

 

インストール

cent OSに導入した。

SourceForge

https://sourceforge.net/projects/trowel-ec/?source=typ_redirect

 バイナリをダウンロードできる。実行権をつけ移動しとく。

chmod u+x trowel.0.2.0.4.linux.64 

#パスの通ったディレクトリに移動し、リネーム。
mv trowel.0.2.0.4.linux.64 /usr/local/bin/trowel
trowel #ヘルプ表示

$ trowel 

Trowel: An error correction module for genomic FASTQ files(Ver. 0.2.0.4) 

=========================================================================

Syntax:    trowel2 -f <file_list> [-k]

Options:   -f STR  a single list file that contains a list of UNCOMPRESSED FASTQ files

           -k INT  size of pre-mer [DEFAULT: 11] (11-15)

           -t INT  number of cores [DEFAULT: 40]

Example of a file_list file:

           a.thal.chr1.fq a.thal.chr2.fq a.thal.chr3.fq ...

           h.sap.chr1.fq h.sap.chr2.fq h.sap.chr3.fq ...

                        ...

 

Note:      1. trowel only supports FASTQ files.

           2. For datasets of high coverage or of large genome, you should use k of 13-15.

           3. You have to increase the maximum number of open file limit before running trowel

              See: http://ithubinfo.blogspot.in/2013/07/how-to-increase-ulimit-open-file-and.html

 

 

 

ラン

 

最初に開けるファイルの数を増やす必要がある。

ulimit -n 2048

 

fastqのパスをファイルに記載し、それを元にランする。

echo input.fq > input
trowel -k 11 -t 20 -f trowelOut/trowelCorrected

 

引用

Trowel: a fast and accurate error correction module for Illumina sequencing reads.

Lim EC, Müller J, Hagmann J, Henz SR, Kim ST, Weigel D.

Bioinformatics. 2014 Nov 15;30(22):3264-5.

 

コマンド参考

https://static-content.springer.com/esm/art%3A10.1186%2Fs12859-017-1784-8/MediaObjects/12859_2017_1784_MOESM1_ESM.pdf