macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

454のホモポリマーに対応したエラーコレクションツール HECTOR

 

 多くの誤り訂正方法が開発・発表されているが、454のホモポリマーを明示的に対象としたエラー訂正ツールはほぼない(2014年時点)。 ホモポリマーのindelは454パイロシークエンシングの主要なシークエンシングエラーの1つで、ホモポリマーエラーが あるせいで454のアライメントはエラーが目立って多く見えてしまう。

 HECTORはこのホモポリマーの挿入または欠失に対処する ホモポリマースペクトルベースのアプローチを導入したエラーコレクションツール。Coralと比較を行っており、 HECTORはCoralと同等の補正能を示し、また平均で3.7倍速く動作し、カバレッジが5xなどの低いデータセットでも機能 すると述べられている。

 

公式サイト

http://hector454.sourceforge.net

 

インストール 

cent OSに導入した。

SourceForge

https://sourceforge.net/projects/hector454/files/HECTOR/

 

ダウンロードして解凍し、ビルドする。

cd hector/
make
./hector #ヘルプ

$ ./hector 

 

HECTOR (version 1.0.0) is a parallel multistage homopolymer spectrum based error corrector for 454 sequencing data.

Usage: hector [options] file [file1 ...]

Basic Options:

-k <int uint> (specify two paramters: k-mer size and estimated total number of k-mers for this k-mer size)

  (e.g. estimated number of k-mers: 67108864, 134217728, 268435456 and 536870912)

-o <str> (output file name, required)

-p <int> (number of threads [>=2], default 2)

-maxtrim <int> (maximal number of bases that can be trimmed, default 0)

パスの通ったディレクトリにコピーしておく。

 

ラン

公式から454のテストデータをダウンロードし、テストする。

https://sourceforge.net/projects/hector454/files/?source=navbar

 解凍しておく。

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-15-131のTable1のデータを使っている。カバレッジが少ないデータと多いデータがある。

カバレッジ18のE.coli 0104のdataset8.faのエラー訂正を行う。 

hector -o corrected.fq -p 12 -maxtrim 1 dataset8.fa 
  • -maxtrim  maximal number of bases that can be trimmed, default 0 
  • -p   number of threads [>=2], default 2 
  • -o   output file name, required

 

 

引用

HECTOR: a parallel multistage homopolymer spectrum based error corrector for 454 sequencing data.

Wirawan A1, Harris RS, Liu Y, Schmidt B, Schröder J.

BMC Bioinformatics. 2014 May 6;15:131.