ロングリードシーケンスを用いると、ショートリードに比べてアセンブルされたウイルスゲノムの連続性が向上するが、複雑なウイルスコミュニティのアセンブルには未解決の問題が残っている。本著者らは、メタゲノムでアセンブルされたウイルスをロングリードで同定・解析するためのツールviralFlyeについて説明する。このツールにより、ウイルスアセンブリが大幅に改善され、また、ショートリードによるアセンブリと比較して、予測されるウイルス-宿主間の関連性がはるかに大きくなることが示された。新たに組み立てられたメタゲノム試料から細菌ゲノム中の新規CRISPRアレイを同定することで、新規ウイルスの新規宿主を予測するための情報が得られることを実証している。
インストール
依存
viralFlye package depends on the following software
- viralVerify
- viralComplete
- prodigal
- samtools
- seqtk
- minced
- minimap2
- biopython
- pysam
- samtools
- freebayes
- bcftools
- numpy
- scipy
- BLAST
git clone https://github.com/Dmitry-Antipov/viralFlye
cd viralFlye
#install.shを実行する。ここではmambaを使う。
mamba create -n viralFlye -c bioconda -c conda-forge -c mikeraiko "python>=3.6" prodigal viralverify vcflib seqtk minced minimap2 pysam tabix samtools freebayes bcftools numpy scipy blast bwa viralcomplete
conda activate viralFlye
> ./viralFlye.py
$ ./viralFlye.py
usage: viralFlye.py [-h] --dir DIR --hmm HMM [--reads READS] [--min_viral_length MIN_VIRAL_LENGTH] [--ill1 ILL1] [--ill2 ILL2] [--outdir OUTDIR] [--completeness COMPLETENESS] [--threads THREADS] [--raven]
Wrapper script for viralFlye pipeline
See readme for details
required arguments:
--dir DIR metaFlye output directory
--hmm HMM Path to Pfam-A HMM database for viralVerify script
--reads READS Path to long reads
optional arguments:
--min_viral_length MIN_VIRAL_LENGTH
minimal limit on the viral length under study, default 5k
--ill1 ILL1 file with left illumina reads for polishing
--ill2 ILL2 file with right illumina reads for polishing
--outdir OUTDIR output directory, default - the assembler's output dir
--completeness COMPLETENESS
Completeness cutoff for viralComplete, default - 0.5
--threads THREADS Threads used, default - 10
データベースの準備
wget http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam34.0/Pfam-A.hmm.gz
実行方法
metaFlyeアセンブリ(metaFlye v2.9+)の出力ディレクトリ、データベース、アセンブルに使用したオリジナルのロングリードを指定する。
./viralFlye.py --dir flye_assembly_dir --hmm path_to_Pfam-A.hmm.gz --reads path_to_reads --outdir output_dir
ジョブが終わると、outdir ディレクトリにlinears_viralFlye.fasta, components_viralFlye.fasta, circulars_viralFlye.fasta の3つの fasta ファイルと、誤って環状化された配列をリストしたテキストが出力される。
出力例
サンプル内のホストの予測
metaFlyeの結果を入力として、環状および線状の孤立コンティグを抽出し、ウイルスとCRISPRスペーサーを予測し、BLASTを用いてマッチングする。
crispr_host_match.py
blast output format 6のテキストが出力される。
引用
viralFlye: assembling viruses and identifying their hosts from long-read metagenomics data
Dmitry Antipov, Mikhail Rayko, Mikhail Kolmogorov & Pavel A. Pevzner
Genome Biology volume 23, Article number: 57 (2022)
関連