macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードのウイルスメタゲノミクスアセンブリから宿主を特定する viralFlye

 

 ロングリードシーケンスを用いると、ショートリードに比べてアセンブルされたウイルスゲノムの連続性が向上するが、複雑なウイルスコミュニティのアセンブルには未解決の問題が残っている。本著者らは、メタゲノムでアセンブルされたウイルスをロングリードで同定・解析するためのツールviralFlyeについて説明する。このツールにより、ウイルスアセンブリが大幅に改善され、また、ショートリードによるアセンブリと比較して、予測されるウイルス-宿主間の関連性がはるかに大きくなることが示された。新たに組み立てられたメタゲノム試料から細菌ゲノム中の新規CRISPRアレイを同定することで、新規ウイルスの新規宿主を予測するための情報が得られることを実証している。

 

インストール

依存

viralFlye package depends on the following software

  • viralVerify
  • viralComplete
  • prodigal
  • samtools
  • seqtk
  • minced
  • minimap2
  • biopython
  • pysam
  • samtools
  • freebayes
  • bcftools
  • numpy
  • scipy
  • BLAST

Github

git clone https://github.com/Dmitry-Antipov/viralFlye
cd viralFlye
#install.shを実行する。ここではmambaを使う。
mamba create -n viralFlye -c bioconda -c conda-forge -c mikeraiko "python>=3.6" prodigal viralverify vcflib seqtk minced minimap2 pysam tabix samtools freebayes bcftools numpy scipy blast bwa viralcomplete
conda activate viralFlye

> ./viralFlye.py

$ ./viralFlye.py 

usage: viralFlye.py [-h] --dir DIR --hmm HMM [--reads READS] [--min_viral_length MIN_VIRAL_LENGTH] [--ill1 ILL1] [--ill2 ILL2] [--outdir OUTDIR] [--completeness COMPLETENESS] [--threads THREADS] [--raven]

 

Wrapper script for viralFlye pipeline 

 

See readme for details

 

required arguments:

  --dir DIR             metaFlye output directory

  --hmm HMM             Path to Pfam-A HMM database for viralVerify script

  --reads READS         Path to long reads

 

optional arguments:

  --min_viral_length MIN_VIRAL_LENGTH

                        minimal limit on the viral length under study, default 5k

  --ill1 ILL1           file with left illumina reads for polishing

  --ill2 ILL2           file with right illumina reads for polishing

  --outdir OUTDIR       output directory, default - the assembler's output dir

  --completeness COMPLETENESS

                        Completeness cutoff for viralComplete,  default - 0.5

  --threads THREADS     Threads used, default - 10

 

 

データベースの準備

wget http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam34.0/Pfam-A.hmm.gz

 

実行方法

metaFlyeアセンブリ(metaFlye v2.9+)の出力ディレクトリ、データベース、アセンブルに使用したオリジナルのロングリードを指定する。

./viralFlye.py --dir flye_assembly_dir --hmm path_to_Pfam-A.hmm.gz --reads path_to_reads --outdir output_dir

ジョブが終わると、outdir ディレクトリにlinears_viralFlye.fasta, components_viralFlye.fasta, circulars_viralFlye.fasta の3つの fasta ファイルと、誤って環状化された配列をリストしたテキストが出力される。

出力例

f:id:kazumaxneo:20220225114407p:plain



サンプル内のホストの予測

metaFlyeの結果を入力として、環状および線状の孤立コンティグを抽出し、ウイルスとCRISPRスペーサーを予測し、BLASTを用いてマッチングする。

crispr_host_match.py

blast output format 6のテキストが出力される。

引用

viralFlye: assembling viruses and identifying their hosts from long-read metagenomics data
Dmitry Antipov, Mikhail Rayko, Mikhail Kolmogorov & Pavel A. Pevzner 
Genome Biology volume 23, Article number: 57 (2022) 

 

関連