2019 3/24 コメント修正
Pacific Biosciences [論文より ref.4,5]およびOxford Nanopore [ref.6,7,8]によって導入された第3世代シークエンシング技術は、かなり長いリードを生成する。これらのロングリードには、通常、数千の塩基対が含まれており(論文より 例[ref.9]参照)、第2世代シーケンサーでよく見られる増幅や組成上の偏りの影響を受けない[ref.10]。ロングリードは、リピート領域および大きな転写アイソフォームに関連する問題を克服する。これらの利点はあるが、、第3世代シークエンシングの重大な制限は、一般に高いエラー率を示すことにある。例えば、PacBio [ref.11,12]は最大20%のエラー率を示し、Oxford Nanopore は35 %のエラー率[13]を示す(論文執筆時点)。
ロングリードの高い誤り率を低減するために、様々なエラー訂正アルゴリズムが提案されている。例えば、HGAP [ref.14]は自己訂正アルゴリズムであり、高カバレッジロングリードの複数のアラインメントを計算することによって訂正を行う。別のエラー訂正アルゴリズムは、同じサンプルから生成されたショートリード情報に依存するため、ハイブリッド補正アルゴリズムと呼ばれる。例えば、[ref.13]の著者は、高品質のIllumina MiSeqのリードを使ってOxford Nanoporeのリードを補正するNanocorrアルゴリズムを提案している(Nanocorr)。
PacBioデータの一般的なハイブリッド補正アルゴリズムには、LSC [ref.3]、PacBioToCA [ref.9]、LoRDEC [ref.15]、proovread [ref.16]、CoLoRMap [ref.17]などがある。ここに列挙されている方法のほとんどは、ショートリードのbase quality情報や個人間のバリアント情報などのローカライズされた情報を体系的に利用していない。例えば、ノイズの多いシーケンシング・データを修正する際にクオリィスコア情報を組み込むことの重要性は、[ref.18]で強調されている。
HECILはショートリードのbase qualityとマッピングの同一性情報を選択することによって、決定の重み付けを行う新しいハイブリッド誤り訂正フレームワーク。原核生物および真核生物のリアルデータでHECILの性能を既存のハイブリッド補正アルゴリズムと比較し、圧倒的多数の評価基準でHECILが競合よりも優れていることを示す。また、繰り返しの前の段階で行われた知識を組み込むことによって、アラインメントとアセンブリベースのメトリクスの両方でHECILの修正精度を向上させる反復学習フレームワークを提案している。著者らは、提案された反復学習形式は、実行時間制限がないなら、性能を改善するために他の最新のハイブリッドエラー訂正アルゴリズムに組み込むことができると推測している。
インストール
cent OSに導入した。
本体 Github
git clone https://github.com/NDBL/HECIL.git
cd HECIL/
chmod u+x *
python HECIL.py -h
python HECIL.py -h
usage: HECIL.py [-h] -l LR -s SR -len LENGTH_SR -o OUTPUT [-lc LOW_CONFIDENCE]
[-c CUTOFF_QC] [-k CONFIDENCE_THRESHOLD]
HECIL : Hubrid Error Correction of Long Reads using Iterative Learning
optional arguments:
-h, --help show this help message and exit
-lc LOW_CONFIDENCE, --low_confidence LOW_CONFIDENCE
Output file containing low-confidence corrections in
pileup format
-c CUTOFF_QC, --cutoff_QC CUTOFF_QC
Cutoff value (between 0 and 1) for quick correction
-k CONFIDENCE_THRESHOLD, --confidence_threshold CONFIDENCE_THRESHOLD
Confidence threshold (between 0 ans 2) to categorize
low and high confidence corrections
required arguments:
-l LR, --LR LR Erroneous long reads
-s SR, --SR SR Accurate short reads
-len LENGTH_SR, --length_SR LENGTH_SR
length of short reads
-o OUTPUT, --output OUTPUT
Output file in FASTA format containing corrected long
reads
ラン
テストデータをランする。
python HECIL.py -l LongRead.fa -s ShortRead.fq -len 202 -o output
- -l Erroneous long reads
- -s Accurate short reads
- -len Length of short reads
- -o Output file in FASTA format containing corrected long reads
samtools、bwaあたりでエラーが出たので、cloneしてきたフォルダのbwaやsamtoolsのバイナリを自分でコンパイルしたbwa(0.7.17)、samtools(0.1.18)に差し替えると動作した。-oで指定したファイルとは別にCorrected_LongRead.faが出力される。
引用
HECIL: A Hybrid Error Correction Algorithm for Long Reads with Iterative Learning
Olivia Choudhury, Ankush Chakrabarty, Scott J. Emrich
bioRxiv preprint first posted online Jul. 13, 2017
追記
HECIL: A Hybrid Error Correction Algorithm for Long Reads with Iterative Learning
Olivia Choudhury, Ankush Chakrabarty, Scott J. Emrich
Scientific Reportsvolume 8, Article number: 9936 (2018)