macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

DNAおよびRNAウイルスの分類器 VirSorter2

 

 ウイルスは多くの生物圏や人間の生態系において重要な役割を果たしているが、普遍的な遺伝子マーカー、データベースの代表、および十分に高度な同定ツールがないため、ほとんどのシグナルはメタゲノム/メタトランスクリプトーム配列データセットでは「隠された」ままである。
 ここでは、ウイルスの配列検出の精度と範囲を向上させるために、カスタマイズされた自動分類器のコレクションに渡ってゲノム情報データベースの進歩を活用するDNAおよびRNAウイルス同定ツールであるVirSorter2を紹介する。単離されたウイルスと未培養ウイルスの両方のゲノムに対してベンチマークを行ったところ、VirSorter2はウイルスの多様性に対して一貫して高い精度(F1スコア>0.8)で独自の性能を発揮したが、他のすべてのツールはリファレンスデータベースに最も多く含まれるグループ(すなわちCaudovirales属)以外のウイルスを過小検出した。評価されたツールの中で、VirSorter2はまた、真核生物のゲノムやプラスミドを含む非定型の細胞配列に関連したエラーを最小化することができるユニークなツールであった。最後に、ウイルス圏の新しいウイルス配列を解き明かすように、VirSorter2のモジュール設計は、最大の感度と特異度を維持するための新しい分類器の設計を介して、新しいタイプのウイルスに拡張することが本質的に可能である。
 multi-classifier とモジュール設計により、VirSorter2は主要なウイルスグループ全体でより高い全体的な精度を示し、様々な生態系におけるウイルスの進化、多様性、ウイルスと微生物の相互作用に関する我々の知識を前進させる。VirSorter2のソースコードhttps://bitbucket.org/MAVERICLab/virsorter2から自由に入手可能で、biocondaとCyVerseのiVirusアプリとしても利用可能である(https://de.cyverse.org/de)。

 

Githubより

VirSorter2は、多様なDNAおよびRNAウイルスゲノムを検出するために、multi-classifier 、expert-guided approachを適用する。以前のバージョンから大幅なアップデートが行われた。

  • dsDNAファージ、ssDNAウイルス、RNAウイルス、NCLDV (Nucleocytoviricota)、lavidaviridae (virophage)を含む、より多くのウイルスグループを扱うことができる。
  • 構造/機能/分類学アノテーションおよびウイルスホールマーク遺伝子を含むゲノム特徴を使用してウイルス性を推定するために機械学習を適用する。
  • メタゲノムまたは他のソースからの高品質のウイルスゲノムを用いてトレーニングを行う。

 

インストール

依存

Github

 

依存は全てcondaで導入できる。ここでは高速なmambaを使う。

#bioconda (link)
mamba create -n vs2 -c bioconda virsorter=2 -y
conda activate vs2

> virsorter

Usage: virsorter [OPTIONS] COMMAND [ARGS]...

 

virsorter - workflow for identifying viral sequences

 

Options:

--version Show the version and exit.

-h, --help Show this message and exit.

 

Commands:

config subcommand for configuration management

run run virsorter main workflow

setup download reference files (~10GB) and install dependencies

train-feature subcommand for training feature of customized classifier

train-model subcommand for training customized classifier model

 

 

 

データベースの準備

データベースと依存関係をdbディレクトリにダウンロードする。数十分かかる。

virsorter setup -d virsorter_db -j 12
  • -d   diretory path for databases [required]
  • -j   number of simultaneous downloads [default: 128]
     

テストラン

テストデータ:8seq.faを使ってランする

wget -O test.fa https://raw.githubusercontent.com/jiarong/VirSorter2/master/test/8seq.fa
virsorter run -w test.out -i test.fa -j 12 all
ls test.out

VirSorter2が使用する大規模なHMMデータベースのために、計算後、終了までに数分かかる。

出力

test.out/

f:id:kazumaxneo:20210306233258p:plaintest.out/final-viral-boundary.tsv(境界情報)

f:id:kazumaxneo:20210306233228p:plain

 

test.out/final-viral-score.tsv(グループ間の各ウイルス配列のスコア)

f:id:kazumaxneo:20210306233344p:plain

 

final-viral-combined.faが特定されたウイルス配列。1つのコンティグに複数のウイルス部分配列が見つかった場合、部分配列を区別するために、元の配列名に接尾辞 ||full, ||lt2gene, ||{i}_partial({i}は0から始まる数字で、そのコンティグで見つかったウイルス断片の最大数まで)が付け加えられていることに注意(Githubより)。

 

  • VirSorter2は、現在含まれているすべてのウイルスグループ(ssDNAphage、NCLDV、RNA、ssDNAウイルス、およびlavavidiridae)をデフォルトで検出する。特定のグループのみを選択するには--includ-groupsを使用する。
  • VirSorter2は、allかclassifyのいずれかの位置の引数を取る。デフォルトはallで、1)前処理、2)アノテーション(特徴抽出)、3)分類を含むパイプライン全体を実行する。主な計算上のボトルネックアノテーションステップで、CPU時間の約95%を消費する。スコアカットオフ(--min-score)を変えて再実行したいだけの場合、classify引数はアノテーションステップをスキップして、classifyステップのみを再実行できる。
  • VirSorter2はsnakemakeのラッパーであり、再現性のために設計された素晴らしいパイプライン管理ツールであり、コンピュータクラスタ上で動作する。すべてのsnakemakeオプションはVirSorter2で動作し、ユーザーはそれらのsnakemakeオプションをvirsorterオプションに単純に追加することができる(after allまたはclassify)。
  • VirSorter2は現在、5つのウイルスグループ(dsDNAphage, NCLDV, RNA, ssNAウイルス, lavavidiridae)の分類器を持っていて、分類器の追加も容易にできるように設計されている。分類器の情報は、セットアップ時に指定されたデータベース(-d)に格納される(モデルを追加する流れはGithubを確認して下さい)。

 

引用

VirSorter2: a multi-classifier, expert-guided approach to detect diverse DNA and RNA viruses
Jiarong Guo, Ben Bolduc, Ahmed A. Zayed, Arvind Varsani, Guillermo Dominguez-Huerta, Tom O. Delmont, Akbar Adjie Pratama, M. Consuelo Gazitúa, Dean Vik, Matthew B. Sullivan, Simon Roux
Microbiome volume 9, Article number: 37 (2021)

 

関連