公開データベースにおけるウイルスゲノム配列数の急速な増加に伴い、包括的なウイルス研究のためのスケーラブルで普遍的かつ自動化された予備的な分類学的枠組みが必要とされている。ここでは、ウイルス配列に基づく分類法(VISTA:Virus Sequence-based Taxonomy Assignment)を紹介する。VISTAは、新しいペアワイズ配列比較システムと、ウイルス分類のための自動分離閾値同定フレームワークを採用した計算ツールである。VISTAは、物理化学的特性配列、k-merプロファイル、および機械学習技術を活用し、分類学的割り当てのための頑健な距離ベースのフレームワークを構築する。VISTAは、ペアワイズ配列比較に基づくウイルス分類ツールとして広く使用されているPairwise Sequence Comparison (PASC)と機能的に類似しているが、分類群の分離が大幅に改善され、より客観的な分類学的区分のしきい値、速度が大幅に向上し、適用範囲が広がるなど、優れた性能を示している。本著者らはVISTAを38のウイルスファミリーとCaudoviricetesクラスに適用することに成功した。これにより、VISTAのスケーラビリティ、堅牢性、原核および真核ウイルスの分類を自動的かつ正確に割り当てる能力が実証された。さらに、メタゲノムデータから回収した未分類の原核生物ウイルスゲノム679個にVISTAを適用した結果、46の新規ウイルスファミリーが同定された。VISTAは、コマンドラインツールとしても、https://ngdc.cncb.ac.cn/vistaで使いやすいウェブポータルとしても利用できる。
BioCode
Run locally using docker (linkの下の方で説明されている)
https://hub.docker.com/r/taozhangbig/vista
Documentation
https://ngdc.cncb.ac.cn/vista/documentation#usage
https://ngdc.cncb.ac.cn/vista/indexにアクセスする。
Get STARTをクリックする。
まず比較したいファミリーを選択する。

ボルティモア分類(ゲノムの種類)、またはウイルス名から直接検索も出来る。
各ファミリーのページでは、右側にペアごとの距離分布が表示される。色は、1つの科の中でも別属間、同属間、同種間などを表し、縦の破線は最適な分類学的区分のしきい値を示していて、

Distance rangeを調整すると、グラフの可視化範囲が限定される。Logに変更も可能。

下の表は全てのペア間の距離のリストを示している。

緑色のボタンをクリックすると全データをダウンロードできる。表は、分類学的な関係や距離の範囲で絞り込むことができる。
新しく配列決定されたウィルスゲノムを分類したい場合は、ゲノムのfastaファイルをアップロードする。複数指定も可能。登録されている配列ならIDでも指定できる(例:AY601633.1)。

サブミット後、指定されたゲノムとそのファミリーの既存のゲノム配列間でペアワイズ距離の計算が行われ、結果のリンクがメールで送信される。
出力例
各入力ゲノムについて、入力ゲノムと 入力ゲノムの他の配列(複数ある場合)、入力ゲノムのうちファミリーに含まれる既存のゲノムに最も近い 10 個のゲノムのペア間の距離がリストで表示される。ファミリー内の最も近い配列は、分布グラフ上で赤い矢印で表示される。ただし、テストした時は結果のメールが届かなった。
引用
VISTA: A Tool for Fast Taxonomic Assignment of Viral Genome Sequences Open Access
Tao Zhang, Yiyun Liu, Xutong Guo, Xinran Zhang, Xinchang Zheng, Mochen Zhang, Yiming Bao
Genomics, Proteomics & Bioinformatics, Volume 23, Issue 1, February 2025
