macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ハプロタイプを考慮したロングリードエラー訂正の評価を行う hifieval

 

PacBio High-Fidelity(HiFi)シーケンス技術は>99%の精度のロングリードを生成する。この技術により、新世代のde novoシーケンスアセンブラが開発され、そのすべてがシーケンスエラー修正(EC)を最初のステップとしている。HiFiは新しいデータタイプであるため、この重要なステップはこれまで評価されていなかった。ここでは、ECアルゴリズムによって生成される過補正と過小補正を測定するための新しいコマンドラインツールであるhifievalを紹介する。CHM13およびHG002データセットを用いて、既存のHiFiアセンブラのECコンポーネントの精度を評価し、さらにホモポリマー領域、セントロメリック領域、セグメント重複などの困難な領域におけるEC手法の性能を調査した。Hifievalは、HiFiアセンブラが長期的にECとアセンブリーの質を向上させるのに役立つだろう。ソースコードhttps://github.com/magspho/hifievalで利用できる。

 

インストール

Github

 GitHub - magspho/hifieval: a tool to evaluate long-read error correction mainly with PacBio High-Fidelity Reads (HiFi reads).

pip install --user --force-reinstall hifieval
export PATH=path/to/your/site-packages:$PATH

#conda
mamba create -n hifieval -y
conda activate hifieval
mamba install -c bioconda hifieval -y

hifieval.py

$ hifieval.py

Version: 0.4.0

Usage: hifieval.py [options]

Options:

  -o STR      Output File Prefix

  -h STR      FASTA file with reference genome for evaluation in

homopolymer region

  -b STR      BED file with specified regions for evaluation

  -r STR      PAF file aligned between raw reads and reference genome

  -c STR      PAF file aligned between corrected reads and reference genome

Minimap2 command for generating PAF file:

  minimap2 -t32 -cx map-hifi --secondary=no --paf-no-hit --cs

<reference genome file> <reads file> > <prefix>.paf

 

 

 

実行方法

入力には、リファレンスゲノムにアライメントされた生リード、2つ目にリファレンスゲノムにアライメントされた補正リードの2つの.pafファイルを使用する(PAFは、2つの配列間のおおよそのマッピング位置を記述するテキストフォーマット)。

hifieval [options] -r raw.paf -c corrected.paf

 

テストラン

1、データのダウンロード

#simulated raw reads
wget https://zenodo.org/record/7799845/files/ecoli.reads.fastq

#reference genome
wget https://zenodo.org/record/7799845/files/ecoli.ref.fasta

 

2、hifiasm(紹介)を使って生のリードのエラーコレクションを行う。

hifiasm -o ecoli.asm.hifiasm --primary -t 10 --write-ec ecoli.reads.fastq 2> ecoli.asm.hifiasm.log

レポジトリではhifiasmの代わりにLJAあるいはVerkkoを使って生のリードのエラーコレクションを行う例も紹介されている。

 

3、リファレンスにエラーコレクション前後のリードをそれぞれマッピングする。

minimap2 -t 8 -cx map-hifi --secondary=no --paf-no-hit --cs ecoli.ref.fasta ecoli.reads.fastq > ecoli.raw.paf
minimap2 -t 8 -cx map-hifi --secondary=no --paf-no-hit --cs ecoli.ref.fasta ecoli.asm.hifiasm.ec.fa > ecoli.hifiasm.paf

 

4、hifievalの実行。それぞれのPAFファイルを指定する。

hifieval.py -o ecoli.hifiasm -r ecoli.raw.paf -c ecoli.hifiasm.paf

 

ecoli.hifiasm.summary.tsv: ダウンストリーム解析のためのEC性能の最も詳細なサマリー

(contains 12 columns: readName, raw_mapped_chr, raw_start, raw_end, raw_mq, corrected_mapped_chr, corrected_start, corrected_end, corrected_mq, num_oc, num_uc, num_cc)

 

ecoli.hifiasm.metric.eval.tsv: 各染色体および全染色体の全体的なメトリクス

 

ecoli.hifiasm.rdlvl.eval.tsv: 各染色体および全染色体について、1oc/uc、2oc/uc などの補正済みリードの数をカウント

 

引用

Evaluation of haplotype-aware long-read error correction with hifieval 
Yujie Guo,   Xiaowen Feng,   Heng Li
Bioinformatics, Volume 39, Published: 18 October 2023