macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードのハイブリッドエラーコレクションツール HECIL

2019 3/24 コメント修正

 

 Pacific Biosciences [論文より ref.4,5]およびOxford Nanopore [ref.6,7,8]によって導入された第3世代シークエンシング技術は、かなり長いリードを生成する。これらのロングリードには、通常、数千の塩基対が含まれており(論文より 例[ref.9]参照)、第2世代シーケンサーでよく見られる増幅や組成上の偏りの影響を受けない[ref.10]。ロングリードは、リピート領域および大きな転写アイソフォームに関連する問題を克服する。これらの利点はあるが、、第3世代シークエンシングの重大な制限は、一般に高いエラー率を示すことにある。例えば、Pac​​Bio [ref.11,12]は最大20%のエラー率を示し、Oxford Nanopore は35 %のエラー率[13]を示す(論文執筆時点)。

 ロングリードの高い誤り率を低減するために、様々なエラー訂正アルゴリズムが提案されている。例えば、HGAP [ref.14]は自己訂正アルゴリズムであり、高カバレッジロングリードの複数のアラインメントを計算することによって訂正を行う。別のエラー訂正アルゴリズムは、同じサンプルから生成されたショートリード情報に依存するため、ハイブリッド補正アルゴリズムと呼ばれる。例えば、[ref.13]の著者は、高品質のIllumina MiSeqのリードを使ってOxford Nanoporeのリードを補正するNanocorrアルゴリズムを提案している(Nanocorr)。
 PacBioデータの一般的なハイブリッド補正アルゴリズムには、LSC [ref.3]、PacBioToCA [ref.9]、LoRDEC [ref.15]、proovread [ref.16]、CoLoRMap [ref.17]などがある。ここに列挙されている方法のほとんどは、ショートリードのbase quality情報や個人間のバリアント情報などのローカライズされた情報を体系的に利用していない。例えば、ノイズの多いシーケンシング・データを修正する際にクオリィスコア情報を組み込むことの重要性は、[ref.18]で強調されている。
 HECILはショートリードのbase qualityとマッピングの同一性情報を選択することによって、決定の重み付けを行う新しいハイブリッド誤り訂正フレームワーク原核生物および真核生物のリアルデータでHECILの性能を既存のハイブリッド補正アルゴリズムと比較し、圧倒的多数の評価基準でHECILが競合よりも優れていることを示す。また、繰り返しの前の段階で行われた知識を組み込むことによって、アラインメントとアセンブリベースのメトリクスの両方でHECILの修正精度を向上させる反復学習フレームワークを提案している。著者らは、提案された反復学習形式は、実行時間制限がないなら、性能を改善するために他の最新のハイブリッドエラー訂正アルゴリズムに組み込むことができると推測している。

 

インストール

cent OSに導入した。

本体 Github

https://github.com/NDBL/HECIL

git clone https://github.com/NDBL/HECIL.git
cd HECIL/
chmod u+x *
python HECIL.py -h

 python HECIL.py -h

usage: HECIL.py [-h] -l LR -s SR -len LENGTH_SR -o OUTPUT [-lc LOW_CONFIDENCE]

                [-c CUTOFF_QC] [-k CONFIDENCE_THRESHOLD]

 

HECIL : Hubrid Error Correction of Long Reads using Iterative Learning

 

optional arguments:

  -h, --help            show this help message and exit

  -lc LOW_CONFIDENCE, --low_confidence LOW_CONFIDENCE

                        Output file containing low-confidence corrections in

                        pileup format

  -c CUTOFF_QC, --cutoff_QC CUTOFF_QC

                        Cutoff value (between 0 and 1) for quick correction

  -k CONFIDENCE_THRESHOLD, --confidence_threshold CONFIDENCE_THRESHOLD

                        Confidence threshold (between 0 ans 2) to categorize

                        low and high confidence corrections

 

required arguments:

  -l LR, --LR LR        Erroneous long reads

  -s SR, --SR SR        Accurate short reads

  -len LENGTH_SR, --length_SR LENGTH_SR

                        length of short reads

  -o OUTPUT, --output OUTPUT

                        Output file in FASTA format containing corrected long

                        reads

  

 ラン

テストデータをランする。

python HECIL.py -l LongRead.fa -s ShortRead.fq -len 202 -o output
  • -l    Erroneous long reads
  • -s   Accurate short reads
  • -len    Length of short reads  
  • -o    Output file in FASTA format containing corrected long reads

 samtools、bwaあたりでエラーが出たので、cloneしてきたフォルダのbwaやsamtoolsのバイナリを自分でコンパイルしたbwa(0.7.17)、samtools(0.1.18)に差し替えると動作した。-oで指定したファイルとは別にCorrected_LongRead.faが出力される。

 

引用

HECIL: A Hybrid Error Correction Algorithm for Long Reads with Iterative Learning

Olivia Choudhury, Ankush Chakrabarty, Scott J. Emrich

bioRxiv preprint first posted online Jul. 13, 2017

 

追記

HECIL: A Hybrid Error Correction Algorithm for Long Reads with Iterative Learning

Olivia Choudhury, Ankush Chakrabarty, Scott J. Emrich 

Scientific Reportsvolume 8, Article number: 9936 (2018)