ロングリードのハイブリッドエラーコレクションツール HECIL

2019 3/24 コメント修正

　Pacific Biosciences [論文より ref.4,5]およびOxford Nanopore [ref.6,7,8]によって導入された第3世代シークエンシング技術は、かなり長いリードを生成する。これらのロングリードには、通常、数千の塩基対が含まれており（論文より　例[ref.9]参照）、第2世代シーケンサーでよく見られる増幅や組成上の偏りの影響を受けない[ref.10]。ロングリードは、リピート領域および大きな転写アイソフォームに関連する問題を克服する。これらの利点はあるが、、第3世代シークエンシングの重大な制限は、一般に高いエラー率を示すことにある。例えば、PacBio [ref.11,12]は最大20%のエラー率を示し、Oxford Nanopore は35 ％のエラー率[13]を示す（論文執筆時点）。

　ロングリードの高い誤り率を低減するために、様々なエラー訂正アルゴリズムが提案されている。例えば、HGAP [ref.14]は自己訂正アルゴリズムであり、高カバレッジロングリードの複数のアラインメントを計算することによって訂正を行う。別のエラー訂正アルゴリズムは、同じサンプルから生成されたショートリード情報に依存するため、ハイブリッド補正アルゴリズムと呼ばれる。例えば、[ref.13]の著者は、高品質のIllumina MiSeqのリードを使ってOxford Nanoporeのリードを補正するNanocorrアルゴリズムを提案している（Nanocorr）。
　PacBioデータの一般的なハイブリッド補正アルゴリズムには、LSC [ref.3]、PacBioToCA [ref.9]、LoRDEC [ref.15]、proovread [ref.16]、CoLoRMap [ref.17]などがある。ここに列挙されている方法のほとんどは、ショートリードのbase quality情報や個人間のバリアント情報などのローカライズされた情報を体系的に利用していない。例えば、ノイズの多いシーケンシング・データを修正する際にクオリィスコア情報を組み込むことの重要性は、[ref.18]で強調されている。
　HECILはショートリードのbase qualityとマッピングの同一性情報を選択することによって、決定の重み付けを行う新しいハイブリッド誤り訂正フレームワーク。原核生物および真核生物のリアルデータでHECILの性能を既存のハイブリッド補正アルゴリズムと比較し、圧倒的多数の評価基準でHECILが競合よりも優れていることを示す。また、繰り返しの前の段階で行われた知識を組み込むことによって、アラインメントとアセンブリベースのメトリクスの両方でHECILの修正精度を向上させる反復学習フレームワークを提案している。著者らは、提案された反復学習形式は、実行時間制限がないなら、性能を改善するために他の最新のハイブリッドエラー訂正アルゴリズムに組み込むことができると推測している。

インストール

cent OSに導入した。

本体 Github

https://github.com/NDBL/HECIL

git clone https://github.com/NDBL/HECIL.git
cd HECIL/
chmod u+x *
python HECIL.py -h

python HECIL.py -h

usage: HECIL.py [-h] -l LR -s SR -len LENGTH_SR -o OUTPUT [-lc LOW_CONFIDENCE]

[-c CUTOFF_QC] [-k CONFIDENCE_THRESHOLD]

HECIL : Hubrid Error Correction of Long Reads using Iterative Learning

optional arguments:

-h, --help show this help message and exit

-lc LOW_CONFIDENCE, --low_confidence LOW_CONFIDENCE

Output file containing low-confidence corrections in

pileup format

-c CUTOFF_QC, --cutoff_QC CUTOFF_QC

Cutoff value (between 0 and 1) for quick correction

-k CONFIDENCE_THRESHOLD, --confidence_threshold CONFIDENCE_THRESHOLD

Confidence threshold (between 0 ans 2) to categorize

low and high confidence corrections

required arguments:

-l LR, --LR LR Erroneous long reads

-s SR, --SR SR Accurate short reads

-len LENGTH_SR, --length_SR LENGTH_SR

length of short reads

-o OUTPUT, --output OUTPUT

Output file in FASTA format containing corrected long

reads

ラン

テストデータをランする。

python HECIL.py -l LongRead.fa -s ShortRead.fq -len 202 -o output

-l Erroneous long reads
-s Accurate short reads
-len Length of short reads
-o Output file in FASTA format containing corrected long reads

samtools、bwaあたりでエラーが出たので、cloneしてきたフォルダのbwaやsamtoolsのバイナリを自分でコンパイルしたbwa（0.7.17）、samtools（0.1.18）に差し替えると動作した。-oで指定したファイルとは別にCorrected_LongRead.faが出力される。

引用

HECIL: A Hybrid Error Correction Algorithm for Long Reads with Iterative Learning

Olivia Choudhury, Ankush Chakrabarty, Scott J. Emrich

bioRxiv preprint first posted online Jul. 13, 2017

追記

HECIL: A Hybrid Error Correction Algorithm for Long Reads with Iterative Learning

Olivia Choudhury, Ankush Chakrabarty, Scott J. Emrich

Scientific Reportsvolume 8, Article number: 9936 (2018)