最近のロングリードアセンブリは、利用可能なリファレンスゲノムの品質と完全性を上回ることが多く、その検証は困難を極めている。ここでは、効率的なk-merセット操作に基づいてリファレンスフリーにアセンブリを評価する新しいツール、Merquryを紹介する。Merquryは、de novo アセンブリのk-merを、未アセンブリの高精度リードに含まれるk-merと比較することで、ベースレベルの精度と完全性を推定する。Triosの場合、Merquryはハプロタイプ固有の精度、完全性、フェーズブロックの連続性、スイッチエラーも評価できる。評価のために、k-merスペクトルプロットなどの複数の視覚化を生成することができる。ヒトと植物の両方のゲノムにおいて、Merquryがアセンブリ検証のための高速で堅牢な手法であることを実証する。
"Merqury: reference-free quality and phasing assessment for genome assemblies" from @ArangRhie Everything you need for k-mer-based assembly validation! https://t.co/zq5VZ7j8j7 pic.twitter.com/7TEFvjAgYZ
— Adam Phillippy (@aphillippy) March 17, 2020
Githubより
ゲノムアセンブリプロジェクトでは、アセンブルされた個体のイルミナ全ゲノムシークエンスリードが利用できることが多い。このリードセットからのk-merスペクトラムは、高品質のリファレンスを必要とせずに、アセンブリ品質の独立した評価に使用できる。Merquryは、この目的のために一連のツールを提供しています。
インストール
condaでpython3.9の仮想環境を作って導入した(ubuntu18.04)。
依存
- gcc 7.4 or higher (for installing meryl)
- meryl v1.3
- Java run time environment (JRE)
- R with argparse, ggplot2, and scales (recommend R 4.0.3+)
- bedtools
- samtools
#conda(link)
mamba create -n merqury -c conda-forge -c bioconda merqury openjdk=11
conda activate merqury
mamba install -c conda-forge -c bioconda merqury
> merqury.sh -h
$ merqury.sh -h
Usage: merqury.sh <read-db.meryl> [<mat.meryl> <pat.meryl>] <asm1.fasta> [asm2.fasta] <out>
<read-db.meryl> : k-mer counts of the read set
<mat.meryl> : k-mer counts of the maternal haplotype (ex. mat.hapmer.meryl)
<pat.meryl> : k-mer counts of the paternal haplotype (ex. pat.hapmer.meryl)
<asm1.fasta> : Assembly fasta file (ex. pri.fasta, hap1.fasta or maternal.fasta)
[asm2.fasta] : Additional fasta file (ex. alt.fasta, hap2.fasta or paternal.fasta)
*asm1.meryl and asm2.meryl will be generated. Avoid using the same names as the hap-mer dbs
<out> : Output prefix
Arang Rhie, 2020-01-29. arrhie@gmail.com
実行方法
merqury.sh read-db.meryl mat.meryl asm1.fasta
引用
Merqury: reference-free quality, completeness, and phasing assessment for genome assemblies
Arang Rhie, Brian P. Walenz, Sergey Koren & Adam M. Phillippy
Genome Biology volume 21, Article number: 245 (2020)
関連