多くの誤り訂正方法が開発・発表されているが、454のホモポリマーを明示的に対象としたエラー訂正ツールはほぼない(2014年時点)。 ホモポリマーのindelは454パイロシークエンシングの主要なシークエンシングエラーの1つで、ホモポリマーエラーが あるせいで454のアライメントはエラーが目立って多く見えてしまう。
HECTORはこのホモポリマーの挿入または欠失に対処する ホモポリマースペクトルベースのアプローチを導入したエラーコレクションツール。Coralと比較を行っており、 HECTORはCoralと同等の補正能を示し、また平均で3.7倍速く動作し、カバレッジが5xなどの低いデータセットでも機能 すると述べられている。
公式サイト
http://hector454.sourceforge.net
インストール
cent OSに導入した。
https://sourceforge.net/projects/hector454/files/HECTOR/
ダウンロードして解凍し、ビルドする。
cd hector/
make
./hector #ヘルプ
$ ./hector
HECTOR (version 1.0.0) is a parallel multistage homopolymer spectrum based error corrector for 454 sequencing data.
Usage: hector [options] file [file1 ...]
Basic Options:
-k <int uint> (specify two paramters: k-mer size and estimated total number of k-mers for this k-mer size)
(e.g. estimated number of k-mers: 67108864, 134217728, 268435456 and 536870912)
-o <str> (output file name, required)
-p <int> (number of threads [>=2], default 2)
-maxtrim <int> (maximal number of bases that can be trimmed, default 0)
パスの通ったディレクトリにコピーしておく。
ラン
公式から454のテストデータをダウンロードし、テストする。
https://sourceforge.net/projects/hector454/files/?source=navbar
解凍しておく。
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-15-131のTable1のデータを使っている。カバレッジが少ないデータと多いデータがある。
カバレッジ18のE.coli 0104のdataset8.faのエラー訂正を行う。
hector -o corrected.fq -p 12 -maxtrim 1 dataset8.fa
- -maxtrim maximal number of bases that can be trimmed, default 0
- -p number of threads [>=2], default 2
- -o output file name, required
引用
HECTOR: a parallel multistage homopolymer spectrum based error corrector for 454 sequencing data.
Wirawan A1, Harris RS, Liu Y, Schmidt B, Schröder J.
BMC Bioinformatics. 2014 May 6;15:131.