macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ノイズの多いロングリードからハプロタイプを考慮したde novo二倍体ゲノムアセンブリを行う PECAT

2024/04/19 論文引用

 

 高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリーが生成されてしまう。ここでは、長いノイズリードから2倍体ゲノムを再構築するための、段階的エラー修正およびアセンブルツールであるPECATを紹介する。ハプロタイプを考慮したエラー修正法を設計し、シーケンスエラーを修正しながらヘテロ接合体の対立遺伝子を保持することができる。さらに、補正されたリードのSNPエラーを減少させるリードレベルSNPコーラーを開発した。次に、リードを異なるハプロタイプグループに割り当てるために、リードグルーピング法を用いる。アセンブルを高速化するため、PECATは必要な場合にのみローカルアライメントを行う。PECATは、他のアセンブラと比較して、ノイズの多い長いリードのみを用いて二倍体ゲノムを効率的にアセンブルし、より連続したハプロタイプ特異的コンティグを生成する。特に、B. taurus (Bison×Simmental)においては、Nanoporeリードを用いることで、ほぼハプロタイプを分離したアセンブルを実現している。

 

インストール

依存

  • python3 (3.6+)
  • minimap2 (2.17+)
  • racon (v1.4.21+)
  • perl (v5.22.1+)
  • samtools (1.7+)
  • clair3 (v0.1-r12+) (optional)
  • medaka (1.7.2+) (optional)

Github

#依存関係
mamba create -n pecat-env python=3.11 -y
conda activate pecat-env
mamba install minimap2=2.24 racon=1.5 perl=5.32 samtools=1.17 -y

#本体
git clone --recursive https://github.com/lemene/PECAT.git
cd PECAT
make -j 12

#pre-build docker image(dockerhub)
docker pull lemene/pecat:v0.0.3

$ ./pecat.pl 

Usage: pecat.pl correct|assemble|unzip|config cfg_fname

    correct:     correct rawreads

    assemble:    generate haplotype-collapsed assembly

    unzip:       generate diploid assembly

    config:      generate default config file

 

 

テストラン

PECAT/demo/.

cfgfile

 

 

cd PECAT/demo/
#リードを指定してデフォルトパラメータのコンフィグファイル作成
pecat.pl config cfgfile
=> cfgfileができる。

#アセンブリ。configファイルを指定する。
../build/demo/pecat.pl unzip cfgfile

出力

S1/

S1/6_polish/racon/

  • 修正されたリードはS1/1-correct/corrected_reads.fastaファイルにある。
  • primaryコンティグとalternateコンティグはS1/6-polish/racon/にある。
  • dual-formatコンティグはS1/6-polish/racon/にある(haplotype_1.fasta, haplotype_2.fasta)。
  • polish_medaka=1が設定されている場合、PECATはMedakaを使用して上記の結果をさらにポリッシュし、コンティグはS1/6-polish/medakaに置かれる。

 

その他(レポジトリより)

  • cleanup=1を推奨。PECATはテンポラリファイルを削除する。
  • ウシやヒトのような大きなゲノムの場合、corr_rd2rd_optionsとalign_rd2rd_optionsに -f 0.005 または -f 0.002 というパラメータを追加することを推奨する。demo/configs/にあるcfg_cattle_clr, cfg_cattle_ont, cfg_hg002_ontを参照。このパラメータはminimap2に渡され、繰り返されるminimizersの上位0.005または0.002フラクションをフィルタリングすることを意味する。これにより、重複候補が少なくなり、ディスク使用量が減り、エラー修正ステップとアセンブルステップが速くなる。

引用

de novo diploid genome assembly using long noisy reads via haplotype-aware error correction and inconsistent overlap identification
Fan Nie, Neng Huang, Jun Zhang, Peng Ni, Zhenyu Wang, ChuanLe Xiao, Feng Luo, Jianxin Wang

bioRxiv, Posted September 27, 2022. 

bioRxiv, Posted February 17, 2023 (new version).

 

2024/04/19

De novo diploid genome assembly using long noisy reads

Fan Nie, Peng Ni, Neng Huang, Jun Zhang, Zhenyu Wang, Chuanle Xiao, Feng Luo & Jianxin Wang 
Nature Communications volume 15, Article number: 2964 (2024) 

 

関連

 

このツールは内藤先生のツイートで知りました。ありがとうございます。