ウイルスゲノムのシークエンシングと解析は、ウイルスの多様性と進化を理解する上で極めて重要である。従来のサンガーシークエンシングはシークエンスデプスが低く、労力を要するという制約があった。イルミナなどの次世代シーケンシング(NGS)法はシークエンスデプスとスループットが向上しているが、ゲノムの断片化により正確なウイルスゲノムの再構築に課題を抱えている。PacBioやOxford Nanopore Technologies(ONT)といった第三世代シーケンシングプラットフォームは、高スループットでロングリードを生成する。しかし、PacBioは多大なリソースを必要とし、ONTは本質的に高いエラーレートという課題がある。さらに、ベースコールからゲノムアセンブリまでを含むONTシーケンシングの標準化されたパイプラインは限られている。
ここでは、ONTベースのウイルスゲノムアセンブリ/ハプロタイプ再構築を効率化するために設計された標準化Nextflowパイプライン「BonoboFlow」を紹介する。BonoboFlowは、ベースコール、リードフィルタリング、キメラリード除去、エラー補正、ドラフトゲノムアセンブリ/ハプロタイプ再構築、ゲノムポリッシングといった主要な処理ステップを統合している。このパイプラインは生のPOD5ファイルまたはベースコール済みFASTQファイルを入力として受け入れ、FASTAコンセンサスファイルを出力し、汚染リードフィルタリングのためにリファレンスゲノム(FASTA形式)を活用する。BonoboFlowのDockerとSingularityによるコンテナ化実装により、様々なコンピューティング環境へのシームレスな展開が可能である。BonoboFlowは中小規模のウイルスゲノムのアセンブリに優れているが、大規模なウイルスゲノムの再構築には課題を示した。
BonoboFlowおよび対応するコンテナイメージはhttps://github.com/nchis09/Bonobo と https://hub.docker.com/r/nchis09/bonobo_image で公開されている。テストデータセットはSRAリポジトリ(アクセッション番号: PRJNA1137155, http://www.ncbi.nlm.nih.gov/bioproject/1137155)で利用できる。
インストール
依存
- Nextflow (version 24.04.2)
- Docker or Singularity
- Conda (recommended for environment management)
Dockerhub
https://hub.docker.com/r/nchis09/bonobo_image
git clone https://github.com/nchis09/BonoboFlow.git && \
mamba create -n bonoboflow -c bioconda -c conda-forge openjdk=11 nextflow=24.04.2 python && \
conda activate bonoboflow
> nextflow run BonoboFlow.nf --help
Nextflow 25.04.2 is available - Please consider updating your version to it
N E X T F L O W ~ version 24.04.2
Launching `BonoboFlow.nf` [determined_snyder] DSL2 - revision: 82a04e829f
========================================================================================
B O N O B O F L O W - P I P E L I N E
========================================================================================
The BonoboFlow pipeline is a dedicated tool developed for the precise execution of viral
genome assembly and haplotypes construction from MinION sequencing reads
------------------------------------------------------------
------------------------------------------
--------------------
-----
-
=============================================
BonoboFlow ~ version 1.0
=============================================
BonoboFlow Pipeline v1.0
=====================================
The BonoboFlow pipeline is a dedicated tool for viral genome assembly and haplotype
construction from MinION sequencing reads.
Usage:
nextflow run BonoboFlow.nf [options]
Basic Command:
nextflow run BonoboFlow.nf -resume \
--in_fastq <input_directory> \
--outfile <output_directory> \
--ref_genome <reference_genome> \
--sample_id <sample_csv_file> \
-w <work_directory>
Mandatory Arguments:
--in_fastq Path to input FASTQ directory (mutually exclusive with --raw_file)
--raw_file Path to raw POD5/FAST5 files (requires --basecalling ON)
--outfile Output directory path
--ref_genome Reference genome sequence
--sample_id CSV file with barcode and sample IDs
Optional Arguments:
--cpu Number of CPUs to use (default: 8)
--maxmem Memory allocation per process (default: 32 GB)
--pipeline Pipeline mode: "assembly" or "haplotype" (default: assembly)
--phred Minimum sequence quality score (default: 12)
--lowerlength Minimum read length (default: 1000)
--upperlength Maximum read length (default: 20000)
--genomesize Expected genome size, assembly mode only (default: 5k)
Basecalling:
--basecalling Enable/disable basecalling (default: OFF)
--basecallers Tool choice: "basecaller" or "duplex" (default: basecaller)
--model Model type: "sup", "fast", or "hac" (default: sup)
Barcoding:
--barcods Barcoding kits used (default: "EXP-NBD104 EXP-NBD114")
--min_score_rear_barcode Minimum rear barcode quality (default: 75)
--min_score_front_barcode Minimum front barcode quality (default: 75)
Error Correction:
--error_correction_tool Choose between "vechat" or "rattle" (default: vechat)
--repr_percentile Cluster representative percentile (default: 0.3)
--score_threshold Cluster similarity threshold (default: 0.2)
--kmer_size K-mer size for clustering (default: 12)
Haplotype Construction:
--maxLD_floats Maximum local divergence (default: 0.05)
--maxGD_floats Maximum global divergence (default: 0.05)
--minAbun_floats Minimum haplotype abundance (default: 0.2)
--topks Seed reads size (default: 100)
--minovlplens Minimum overlap length (default: 1000)
--minseedlens Minimum seed length (default: 1000)
--maxohs Maximum overhang length (default: 20)
GPU Support:
--gpu Enable GPU acceleration (default: 0)
Set to 1 for GPU support with compatible processes
For more information and examples, visit: https://github.com/nchis09/BonoboFlow
実行方法
FAST5/POD5、あるいはベースコールしたfastqとリファレンスfastaを指定する。fastqの場合は、生のfastq(圧縮不可)を含むディレクトリをフルパスで指定する。sample IDのCSVファイルもフルパスで指定する。
nextflow run BonoboFlow.nf -resume --in_fastq <full>/<path>/<to>/fastq_dor/ --outfile outdir -w temp --ref_genome ref/GCA_000240185.2_ASM24018v2_genomic.fna --sample_id sample_id.csv
-resumeをつけておくと、再開可能な直近のプロセスから再スタート可能。途中で止めたりエラーが出たときに便利。
引用
BonoboFlow: Viral Genome Assembly and Haplotype Reconstruction from Nanopore Reads Open Access
Christian Ndekezi , Drake Byamukama , Frank Kato , Denis Omara , Angella Nakyanzi , Fortunate Natwijuka , Susan Mugaba , Alfred Ssekagiri , Nicholas Bbosa , Obondo James Sande , Magambo Phillip Kimuda , Denis K Byarugaba , Anne Kapaata , Jyoti Sutar , Jayanta Bhattacharya , Pontiano Kaleebu , Sheila N Balinda
Bioinformatics Advances, Published: 13 May 2025