2024/04/19 論文引用
高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリーが生成されてしまう。ここでは、長いノイズリードから2倍体ゲノムを再構築するための、段階的エラー修正およびアセンブルツールであるPECATを紹介する。ハプロタイプを考慮したエラー修正法を設計し、シーケンスエラーを修正しながらヘテロ接合体の対立遺伝子を保持することができる。さらに、補正されたリードのSNPエラーを減少させるリードレベルSNPコーラーを開発した。次に、リードを異なるハプロタイプグループに割り当てるために、リードグルーピング法を用いる。アセンブルを高速化するため、PECATは必要な場合にのみローカルアライメントを行う。PECATは、他のアセンブラと比較して、ノイズの多い長いリードのみを用いて二倍体ゲノムを効率的にアセンブルし、より連続したハプロタイプ特異的コンティグを生成する。特に、B. taurus (Bison×Simmental)においては、Nanoporeリードを用いることで、ほぼハプロタイプを分離したアセンブルを実現している。
インストール
依存
- python3 (3.6+)
- minimap2 (2.17+)
- racon (v1.4.21+)
- perl (v5.22.1+)
- samtools (1.7+)
- clair3 (v0.1-r12+) (optional)
- medaka (1.7.2+) (optional)
#依存関係
mamba create -n pecat-env python=3.11 -y
conda activate pecat-env
mamba install minimap2=2.24 racon=1.5 perl=5.32 samtools=1.17 -y
#本体
git clone --recursive https://github.com/lemene/PECAT.git
cd PECAT
make -j 12
#pre-build docker image(dockerhub)
docker pull lemene/pecat:v0.0.3
$ ./pecat.pl
Usage: pecat.pl correct|assemble|unzip|config cfg_fname
correct: correct rawreads
assemble: generate haplotype-collapsed assembly
unzip: generate diploid assembly
config: generate default config file
テストラン
PECAT/demo/.
cfgfile
cd PECAT/demo/
#リードを指定してデフォルトパラメータのコンフィグファイル作成
pecat.pl config cfgfile
=> cfgfileができる。
#アセンブリ。configファイルを指定する。
../build/demo/pecat.pl unzip cfgfile
出力
S1/
S1/6_polish/racon/
- 修正されたリードはS1/1-correct/corrected_reads.fastaファイルにある。
- primaryコンティグとalternateコンティグはS1/6-polish/racon/にある。
- dual-formatコンティグはS1/6-polish/racon/にある(haplotype_1.fasta, haplotype_2.fasta)。
- polish_medaka=1が設定されている場合、PECATはMedakaを使用して上記の結果をさらにポリッシュし、コンティグはS1/6-polish/medakaに置かれる。
その他(レポジトリより)
- cleanup=1を推奨。PECATはテンポラリファイルを削除する。
- ウシやヒトのような大きなゲノムの場合、corr_rd2rd_optionsとalign_rd2rd_optionsに -f 0.005 または -f 0.002 というパラメータを追加することを推奨する。demo/configs/にあるcfg_cattle_clr, cfg_cattle_ont, cfg_hg002_ontを参照。このパラメータはminimap2に渡され、繰り返されるminimizersの上位0.005または0.002フラクションをフィルタリングすることを意味する。これにより、重複候補が少なくなり、ディスク使用量が減り、エラー修正ステップとアセンブルステップが速くなる。
引用
de novo diploid genome assembly using long noisy reads via haplotype-aware error correction and inconsistent overlap identification
Fan Nie, Neng Huang, Jun Zhang, Peng Ni, Zhenyu Wang, ChuanLe Xiao, Feng Luo, Jianxin Wang
bioRxiv, Posted September 27, 2022.
bioRxiv, Posted February 17, 2023 (new version).
2024/04/19
De novo diploid genome assembly using long noisy reads
Fan Nie, Peng Ni, Neng Huang, Jun Zhang, Zhenyu Wang, Chuanle Xiao, Feng Luo & Jianxin Wang
Nature Communications volume 15, Article number: 2964 (2024)
関連
このツールは内藤先生のツイートで知りました。ありがとうございます。