macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ロングリードのハイブリッドエラーコレクションツール CoLoRMap

 

CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同じくらいで、実行時間は短い方である。

 

インストール

cent OSに導入した。

Github


git clone --recursive https://github.com/sfu-compbio/colormap.git 
cd colormap
make deps #依存のビルド
make

 

実行方法

付属のテストデータでランする。

1、ペアードエンドはinterleave形式しか受け付けないので、まず付属ツールでショートリードx2をinterleaveにする。

cd testData 
../bin/fastUtils shuffle -1 ill_1.fastq -2 ill_2.fastq -o ill.fastq

  

2、ill.fastqを使ってpacbioのロングリードをエラー補正。

../runCorr.sh pac.fasta ill.fastq testCorr pre 4

testCorr/ に複数ファイル出力される。エラー補正されたのはpre_sp.fasta 。pre-incorr.fastaシンボリックリンク

$ ls -alth testCorr/

total 1.8M

drwxr-xr-x 2 uesaka user 4.0K Dec 22 14:21 .

-rw-r--r-- 1 uesaka user 918K Dec 22 14:21 pre_sp.fasta

-rw-r--r-- 1 uesaka user 903K Dec 22 14:21 pre_iter1.fasta

lrwxrwxrwx 1 uesaka user   46 Dec 22 14:21 pre_uncorr.fasta ->

 

3、One-End Anchors (OEAs) を使い(論文を確認)クオリティを上げる。

../runOEA.sh testCorr/pre_sp.fasta ill.fastq testOEA pre 4

 testOEA/にpre_oea.fastaが出力される。

$ ls -alth testOEA/

total 928K

drwxr-xr-x 2 uesaka user 4.0K Dec 22 14:27 .

-rw-r--r-- 1 uesaka user 919K Dec 22 14:27 pre_oea.fasta

lrwxrwxrwx 1 uesaka user   58 Dec 22 14:25 pre_corr.fasta -> 

 

 

引用

CoLoRMap: Correcting Long Reads by Mapping short reads

Haghshenas E, Hach F, Sahinalp SC, Chauve C

Bioinformatics. 2016 Sep 1;32(17):i545-i551