CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同じくらいで、実行時間は短い方である。
インストール
cent OSに導入した。
git clone --recursive https://github.com/sfu-compbio/colormap.git
cd colormap
make deps #依存のビルド
make
実行方法
付属のテストデータでランする。
1、ペアードエンドはinterleave形式しか受け付けないので、まず付属ツールでショートリードx2をinterleaveにする。
cd testData
../bin/fastUtils shuffle -1 ill_1.fastq -2 ill_2.fastq -o ill.fastq
2、ill.fastqを使ってpacbioのロングリードをエラー補正。
../runCorr.sh pac.fasta ill.fastq testCorr pre 4
testCorr/ に複数ファイル出力される。エラー補正されたのはpre_sp.fasta 。pre-incorr.fastaはシンボリックリンク。
$ ls -alth testCorr/
total 1.8M
drwxr-xr-x 2 uesaka user 4.0K Dec 22 14:21 .
-rw-r--r-- 1 uesaka user 918K Dec 22 14:21 pre_sp.fasta
-rw-r--r-- 1 uesaka user 903K Dec 22 14:21 pre_iter1.fasta
lrwxrwxrwx 1 uesaka user 46 Dec 22 14:21 pre_uncorr.fasta ->
3、One-End Anchors (OEAs) を使い(論文を確認)クオリティを上げる。
../runOEA.sh testCorr/pre_sp.fasta ill.fastq testOEA pre 4
testOEA/にpre_oea.fastaが出力される。
$ ls -alth testOEA/
total 928K
drwxr-xr-x 2 uesaka user 4.0K Dec 22 14:27 .
-rw-r--r-- 1 uesaka user 919K Dec 22 14:27 pre_oea.fasta
lrwxrwxrwx 1 uesaka user 58 Dec 22 14:25 pre_corr.fasta ->
引用
CoLoRMap: Correcting Long Reads by Mapping short reads
Haghshenas E, Hach F, Sahinalp SC, Chauve C
Bioinformatics. 2016 Sep 1;32(17):i545-i551