macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ナノポアリードからウイルスハプロタイプ再構築を行うnextflowパイプライン BonoboFlow

 

 

 ウイルスゲノムのシークエンシングと解析は、ウイルスの多様性と進化を理解する上で極めて重要である。従来のサンガーシークエンシングはシークエンスデプスが低く、労力を要するという制約があった。イルミナなどの次世代シーケンシング(NGS)法はシークエンスデプスとスループットが向上しているが、ゲノムの断片化により正確なウイルスゲノムの再構築に課題を抱えている。PacBioやOxford Nanopore Technologies(ONT)といった第三世代シーケンシングプラットフォームは、高スループットでロングリードを生成する。しかし、PacBioは多大なリソースを必要とし、ONTは本質的に高いエラーレートという課題がある。さらに、ベースコールからゲノムアセンブリまでを含むONTシーケンシングの標準化されたパイプラインは限られている。

ここでは、ONTベースのウイルスゲノムアセンブリ/ハプロタイプ再構築を効率化するために設計された標準化Nextflowパイプライン「BonoboFlow」を紹介する。BonoboFlowは、ベースコール、リードフィルタリング、キメラリード除去、エラー補正、ドラフトゲノムアセンブリ/ハプロタイプ再構築、ゲノムポリッシングといった主要な処理ステップを統合している。このパイプラインは生のPOD5ファイルまたはベースコール済みFASTQファイルを入力として受け入れ、FASTAコンセンサスファイルを出力し、汚染リードフィルタリングのためにリファレンスゲノム(FASTA形式)を活用する。BonoboFlowのDockerとSingularityによるコンテナ化実装により、様々なコンピューティング環境へのシームレスな展開が可能である。BonoboFlowは中小規模のウイルスゲノムのアセンブリに優れているが、大規模なウイルスゲノムの再構築には課題を示した。
BonoboFlowおよび対応するコンテナイメージはhttps://github.com/nchis09/Bonobohttps://hub.docker.com/r/nchis09/bonobo_image で公開されている。テストデータセットはSRAリポジトリ(アクセッション番号: PRJNA1137155, http://www.ncbi.nlm.nih.gov/bioproject/1137155)で利用できる。

 

インストール

依存

  • Nextflow (version 24.04.2)
  • Docker or Singularity
  • Conda (recommended for environment management)

Github

Dockerhub

https://hub.docker.com/r/nchis09/bonobo_image

git clone https://github.com/nchis09/BonoboFlow.git && \
mamba create -n bonoboflow -c bioconda -c conda-forge openjdk=11 nextflow=24.04.2 python && \
conda activate bonoboflow

> nextflow run BonoboFlow.nf --help

Nextflow 25.04.2 is available - Please consider updating your version to it

 

 N E X T F L O W   ~  version 24.04.2

 

Launching `BonoboFlow.nf` [determined_snyder] DSL2 - revision: 82a04e829f

 

 

========================================================================================

                        B O N O B O F L O W     - P I P E L I N E

========================================================================================

 

The BonoboFlow pipeline is a dedicated tool developed for the precise execution of viral 

       genome assembly and haplotypes construction from MinION sequencing reads

 

           ------------------------------------------------------------

 

                      ------------------------------------------

 

                               --------------------

 

                                      -----

 

                                        -

 

                   =============================================

                     BonoboFlow  ~  version 1.0

                   =============================================

 

 

BonoboFlow Pipeline v1.0

=====================================

 

The BonoboFlow pipeline is a dedicated tool for viral genome assembly and haplotype 

construction from MinION sequencing reads.

 

Usage:

    nextflow run BonoboFlow.nf [options]

 

Basic Command:

    nextflow run BonoboFlow.nf -resume \

        --in_fastq <input_directory> \

        --outfile <output_directory> \

        --ref_genome <reference_genome> \

        --sample_id <sample_csv_file> \

        -w <work_directory>

 

Mandatory Arguments:

    --in_fastq                Path to input FASTQ directory (mutually exclusive with --raw_file)

    --raw_file               Path to raw POD5/FAST5 files (requires --basecalling ON)

    --outfile                Output directory path

    --ref_genome             Reference genome sequence

    --sample_id              CSV file with barcode and sample IDs

 

Optional Arguments:

    --cpu                    Number of CPUs to use (default: 8)

    --maxmem                 Memory allocation per process (default: 32 GB)

    --pipeline               Pipeline mode: "assembly" or "haplotype" (default: assembly)

    --phred                  Minimum sequence quality score (default: 12)

    --lowerlength            Minimum read length (default: 1000)

    --upperlength            Maximum read length (default: 20000)

    --genomesize             Expected genome size, assembly mode only (default: 5k)

 

Basecalling:

    --basecalling           Enable/disable basecalling (default: OFF)

    --basecallers           Tool choice: "basecaller" or "duplex" (default: basecaller)

    --model                 Model type: "sup", "fast", or "hac" (default: sup)

 

Barcoding:

    --barcods               Barcoding kits used (default: "EXP-NBD104 EXP-NBD114")

    --min_score_rear_barcode   Minimum rear barcode quality (default: 75)

    --min_score_front_barcode  Minimum front barcode quality (default: 75)

 

Error Correction:

    --error_correction_tool   Choose between "vechat" or "rattle" (default: vechat)

    --repr_percentile         Cluster representative percentile (default: 0.3)

    --score_threshold        Cluster similarity threshold (default: 0.2)

    --kmer_size             K-mer size for clustering (default: 12)

 

Haplotype Construction:

    --maxLD_floats          Maximum local divergence (default: 0.05)

    --maxGD_floats          Maximum global divergence (default: 0.05)

    --minAbun_floats        Minimum haplotype abundance (default: 0.2)

    --topks                 Seed reads size (default: 100)

    --minovlplens          Minimum overlap length (default: 1000)

    --minseedlens          Minimum seed length (default: 1000)

    --maxohs               Maximum overhang length (default: 20)

 

GPU Support:

    --gpu                   Enable GPU acceleration (default: 0)

                           Set to 1 for GPU support with compatible processes

 

For more information and examples, visit: https://github.com/nchis09/BonoboFlow

 

 

実行方法

FAST5/POD5、あるいはベースコールしたfastqとリファレンスfastaを指定する。fastqの場合は、生のfastq(圧縮不可)を含むディレクトリをフルパスで指定する。sample IDのCSVファイルもフルパスで指定する。

nextflow run BonoboFlow.nf -resume --in_fastq <full>/<path>/<to>/fastq_dor/ --outfile outdir -w temp --ref_genome ref/GCA_000240185.2_ASM24018v2_genomic.fna --sample_id sample_id.csv 

-resumeをつけておくと、再開可能な直近のプロセスから再スタート可能。途中で止めたりエラーが出たときに便利。

 

引用

BonoboFlow: Viral Genome Assembly and Haplotype Reconstruction from Nanopore Reads Open Access
Christian Ndekezi , Drake Byamukama , Frank Kato , Denis Omara , Angella Nakyanzi , Fortunate Natwijuka , Susan Mugaba , Alfred Ssekagiri , Nicholas Bbosa , Obondo James Sande , Magambo Phillip Kimuda , Denis K Byarugaba , Anne Kapaata , Jyoti Sutar , Jayanta Bhattacharya , Pontiano Kaleebu , Sheila N Balinda

Bioinformatics Advances, Published: 13 May 2025