PacBio High-Fidelity(HiFi)シーケンス技術は>99%の精度のロングリードを生成する。この技術により、新世代のde novoシーケンスアセンブラが開発され、そのすべてがシーケンスエラー修正(EC)を最初のステップとしている。HiFiは新しいデータタイプであるため、この重要なステップはこれまで評価されていなかった。ここでは、ECアルゴリズムによって生成される過補正と過小補正を測定するための新しいコマンドラインツールであるhifievalを紹介する。CHM13およびHG002データセットを用いて、既存のHiFiアセンブラのECコンポーネントの精度を評価し、さらにホモポリマー領域、セントロメリック領域、セグメント重複などの困難な領域におけるEC手法の性能を調査した。Hifievalは、HiFiアセンブラが長期的にECとアセンブリーの質を向上させるのに役立つだろう。ソースコードはhttps://github.com/magspho/hifievalで利用できる。
インストール
GitHub - magspho/hifieval: a tool to evaluate long-read error correction mainly with PacBio High-Fidelity Reads (HiFi reads).
pip install --user --force-reinstall hifieval
export PATH=path/to/your/site-packages:$PATH
#conda
mamba create -n hifieval -y
conda activate hifieval
mamba install -c bioconda hifieval -y
> hifieval.py
$ hifieval.py
Version: 0.4.0
Usage: hifieval.py [options]
Options:
-o STR Output File Prefix
-h STR FASTA file with reference genome for evaluation in
homopolymer region
-b STR BED file with specified regions for evaluation
-r STR PAF file aligned between raw reads and reference genome
-c STR PAF file aligned between corrected reads and reference genome
Minimap2 command for generating PAF file:
minimap2 -t32 -cx map-hifi --secondary=no --paf-no-hit --cs
<reference genome file> <reads file> > <prefix>.paf
実行方法
入力には、リファレンスゲノムにアライメントされた生リード、2つ目にリファレンスゲノムにアライメントされた補正リードの2つの.pafファイルを使用する(PAFは、2つの配列間のおおよそのマッピング位置を記述するテキストフォーマット)。
hifieval [options] -r raw.paf -c corrected.paf
テストラン
1、データのダウンロード
#simulated raw reads
wget https://zenodo.org/record/7799845/files/ecoli.reads.fastq
#reference genome
wget https://zenodo.org/record/7799845/files/ecoli.ref.fasta
2、hifiasm(紹介)を使って生のリードのエラーコレクションを行う。
hifiasm -o ecoli.asm.hifiasm --primary -t 10 --write-ec ecoli.reads.fastq 2> ecoli.asm.hifiasm.log
レポジトリではhifiasmの代わりにLJAあるいはVerkkoを使って生のリードのエラーコレクションを行う例も紹介されている。
3、リファレンスにエラーコレクション前後のリードをそれぞれマッピングする。
minimap2 -t 8 -cx map-hifi --secondary=no --paf-no-hit --cs ecoli.ref.fasta ecoli.reads.fastq > ecoli.raw.paf
minimap2 -t 8 -cx map-hifi --secondary=no --paf-no-hit --cs ecoli.ref.fasta ecoli.asm.hifiasm.ec.fa > ecoli.hifiasm.paf
4、hifievalの実行。それぞれのPAFファイルを指定する。
hifieval.py -o ecoli.hifiasm -r ecoli.raw.paf -c ecoli.hifiasm.paf
ecoli.hifiasm.summary.tsv: ダウンストリーム解析のためのEC性能の最も詳細なサマリー
(contains 12 columns: readName, raw_mapped_chr, raw_start, raw_end, raw_mq, corrected_mapped_chr, corrected_start, corrected_end, corrected_mq, num_oc, num_uc, num_cc)
ecoli.hifiasm.metric.eval.tsv: 各染色体および全染色体の全体的なメトリクス
ecoli.hifiasm.rdlvl.eval.tsv: 各染色体および全染色体について、1oc/uc、2oc/uc などの補正済みリードの数をカウント
引用
Evaluation of haplotype-aware long-read error correction with hifieval
Yujie Guo, Xiaowen Feng, Heng Li
Bioinformatics, Volume 39, Published: 18 October 2023