macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Merqury

 

 最近のロングリードアセンブリは、利用可能なリファレンスゲノムの品質と完全性を上回ることが多く、その検証は困難を極めている。ここでは、効率的なk-merセット操作に基づいてリファレンスフリーにアセンブリを評価する新しいツール、Merquryを紹介する。Merquryは、de novo アセンブリのk-merを、未アセンブリの高精度リードに含まれるk-merと比較することで、ベースレベルの精度と完全性を推定する。Triosの場合、Merquryはハプロタイプ固有の精度、完全性、フェーズブロックの連続性、スイッチエラーも評価できる。評価のために、k-merスペクトルプロットなどの複数の視覚化を生成することができる。ヒトと植物の両方のゲノムにおいて、Merquryがアセンブリ検証のための高速で堅牢な手法であることを実証する。

 

 

Githubより

ゲノムアセンブリプロジェクトでは、アセンブルされた個体のイルミナ全ゲノムシークエンスリードが利用できることが多い。このリードセットからのk-merスペクトラムは、高品質のリファレンスを必要とせずに、アセンブリ品質の独立した評価に使用できる。Merquryは、この目的のために一連のツールを提供しています。

 

インストール

condaでpython3.9の仮想環境を作って導入した(ubuntu18.04)。

依存

  • gcc 7.4 or higher (for installing meryl)
  • meryl v1.3
  • Java run time environment (JRE)
  • R with argparse, ggplot2, and scales (recommend R 4.0.3+)
  • bedtools
  • samtools

Github

#conda(link)
mamba create -n merqury -c conda-forge -c bioconda merqury openjdk=11
conda activate merqury
mamba install -c conda-forge -c bioconda merqury

> merqury.sh -h

$ merqury.sh -h
Usage: merqury.sh <read-db.meryl> [<mat.meryl> <pat.meryl>] <asm1.fasta> [asm2.fasta] <out>
    <read-db.meryl>    : k-mer counts of the read set
    <mat.meryl>        : k-mer counts of the maternal haplotype (ex. mat.hapmer.meryl)
    <pat.meryl>        : k-mer counts of the paternal haplotype (ex. pat.hapmer.meryl)
    <asm1.fasta>    : Assembly fasta file (ex. pri.fasta, hap1.fasta or maternal.fasta)
    [asm2.fasta]    : Additional fasta file (ex. alt.fasta, hap2.fasta or paternal.fasta)
    *asm1.meryl and asm2.meryl will be generated. Avoid using the same names as the hap-mer dbs
    <out>        : Output prefix
Arang Rhie, 2020-01-29. arrhie@gmail.com

 

 

実行方法

merqury.sh read-db.meryl mat.meryl asm1.fasta

作成中

 

 

引用

Merqury: reference-free quality, completeness, and phasing assessment for genome assemblies
Arang Rhie, Brian P. Walenz, Sergey Koren & Adam M. Phillippy 
Genome Biology volume 21, Article number: 245 (2020) 

 

関連