macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ナノポアリードからの高品質メタゲノムアセンブリを行う nanoMDBG

 

 第3世代のロングリードシーケンス技術は、メタゲノムアセンブリの質を著しく向上させることが示されている。PacBio HiFiで生成された高精度のリードを用いた結果は特に注目すべきもので、手作業なしで数百の環状化された完全なゲノムをメタゲノムアセンブリ(MAG)として得ることができた。Oxford Nanopore Technologies (ONT)は最近、シーケンスリードの精度を向上させ、塩基あたりのエラー率を約1-2%に抑えた。ONTシーケンスのハイスループット、利便性、低コストを考えると、これはロングリードのメタゲノム解析の普及を加速する可能性がある。しかし、現在のメタゲノム・アセンブラはPacBio HiFiデータ用に最適化されており、最新のONTデータでは性能が低く、ONTが可能にする大規模なデータセットには対応できない。

本著者らは、metaMDBG HiFiアセンブラを進化させたnanoMDBGを紹介する。nanoMDBGは、minimizer-spaceで高速かつ正確なエラー修正を行う新しい前処理ステップにより、最新のONTシーケンスデータをサポートするように設計されている。この研究のために特別にシーケンスされた400Gbpの大規模な土壌サンプルを含む、様々なONTデータセットにおいて、nanoMDBGは、CPU時間とメモリを3分の1に抑えながら、次善のONTアセンブラであるmetaFlyeの最大2倍の高品質のMAGを再構築した。これらの進歩の結果、最新のONTテクノロジーは、同じシーケンス深度でPacBio HiFiシーケンスを用いて得られた結果に匹敵する結果が得られるようになったことを示す。

 

レポジトリより

MetaMDBGがバージョン1.0になりnanopore R10.4+データを扱えるようになった。biocondaを利用できる。

  • minimizer-space補正ステップを追加
  • MetaMDBGのパラメータを変更(オプションは明示的な名前を使用するようになった
  • 最終アセンブルFastaファイルのコンティグ情報フォーマットを変更(Readme - "Contig information "を参照)
  • rescued circular stepを削除
  • samtoolsとwfmashへの依存関係を削除
  • condaレシピに欠落していた "time "依存関係を修正
  • gfaコマンドのバグを修正

 

インストール

Github

mamba install -c conda-forge -c bioconda metamdbg -y

> metaMDBG

$ metaMDBG -h

 Program: metaMDBG (assembly of long metagenomics reads)

 Version: 1.1

 Contact: Gaëtan Benoit (gaetanbenoitdev@gmail.com)

 

 Usage: metaMDBG [command]

 

 command:

     asm: perform read assembly

     gfa: generate an assembly graph (.gfa). Require a finished metaMDBG run

 

>  metaMDBG asm -h

 Usage:  metaMDBG asm {OPTIONS}

 

  Basic options:

    --out-dir               Output dir for contigs and temporary files

    --in-hifi               PacBio HiFi read filename(s) (separated by space)

    --in-ont                Nanopore R10.4+ read filename(s) (separated by space)

    --threads               Number of cores [1]

 

  Assembly options:

    --kmer-size             k-mer size [13]

    --density-assembly      Fraction of total k-mers used for assembly [0.005]

    --max-k                 Stop assembly after k iterations [0]

 

  Correction options:

    --min-read-quality      Minimum read average quality [0]

    --density-correction    Fraction of total k-mers used for correction [0.025]

    --min-read-identity     Min read identity [0.96]

    --min-read-overlap      Min read overlap length [1000]

    --skip-correction       Skip read correction

 

 Example 1: metaMDBG asm --out-dir ./outputDir/ --in-hifi reads.fastq.gz --threads 4

 Example 2: metaMDBG asm --out-dir ./outputDir/ --in-ont reads_A.fastq.gz reads_B.fastq.gz reads_C.fastq.gz --threads 4

 

> metaMDBG gfa -h

 Usage:  metaMDBG gfa {OPTIONS}

 

  Basic options:

    --assembly-dir          Output dir of a metaMDBG run

    --k                     Generate assembly graph for this k value (set to 0 to display available k values) [0]

    --contigpath            Generate path of contigs in the assembly graph

    --readpath              Generate path of reads in the assembly graph

    --threads               Number of cores [1]

 

実行方法

R10.4などのONTのメタゲノムリードを指定するには--in-ontでfastqを指定する。

metaMDBG asm --in-ont ONT.fastq.gz --out-dir outdir --threads 20
  • --in-ont                Nanopore R10.4+ read filename(s) (separated by space)
  • --out-dir               Output dir for contigs and temporary files
  • --threads               Number of cores [1]

 

出力例

 

引用

High-quality metagenome assembly from nanopore reads with nanoMDBG

Gaëtan Benoit, Robert James, Sébastien Raguideau, Georgina Alabone, Tim Goodall, Rayan Chikhi, Christopher Quinc

bioRxiv, Posted April 24, 2025.

 

関連