macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

クラスター化された原核生物ウイルスタンパク質ファミリー PHROG

 

 ウイルスは豊富で多様性に富み、先祖伝来の生物学的実体である。その多様性は、遭遇する様々なタンパク質ファミリーの数においても、各タンパク質ファミリーの配列の不均一性においても高い。近年、ウイルスゲノムの塩基配列が解読されつつあり、このような多様性について新たな知見を得る絶好の機会であり、機能解析や比較解析に役立つアノテーションリソースの開発が急がれている。ここでは、HMMプロファイル-プロファイル比較による遠隔相同性検出に基づく新しいクラスタリングアプローチによって作成されたウイルスタンパク質ファミリーのライブラリーであるPHROG(Prokaryotic Virus Remote Homologous Groups)を紹介する。原核生物の17 473のリファレンスpro)virusesを考慮すると、全938864個のタンパク質のうち868340個が38880個のクラスターにグループ化され、BLASTのような類似性検索に基づく古典的な戦略よりも2倍深いクラスタリングであることが証明された。様々な参照配列データベースとの類似性を手作業で検査した結果、5108のクラスター(全タンパク質データセットの50.6%を含む)に705の異なるアノテーション用語(ウイルス用に特別に設計された9つの機能カテゴリーに含まれる)がアノテーションされた。PHROGが今後の原核生物ウイルス配列のアノテーションに有用なツールとなり、原核生物ウイルスの進化と生態をより深く理解するための科学的な一助となることを願っている。

 

ここではPHROGのウェブサイトを簡単に紹介します。

 

Documentation

https://phrogs.lmge.uca.fr/READMORE.php

 

webサービス

https://phrogs.lmge.uca.fr/にアクセスする。

このサイトでは、原核生物ウイルスの全ゲノムをウイルステーブルから選択し、分類学、タンパク質リスト、ゲノムマップなどを見ることができる。また、PHROGsの表からPHROGsを選択し、そのアノテーション、タンパク質のリスト、マルチプルアラインメント、Pfam、Uniprot、KEGGなどとの比較結果を見ることができる。

 

データベースには、2024年3月現在で38,880のPHROGsが含まれている。PHROGsは、PHROGs annotation term、RefSeq term、pfam ID、KEGG orthology ID、GO termなどで検索できる。

検索結果

表はCSVexcel形式でダウンロードできる。

 

1つの行を拡大した。このPHROG:phrog_9687は、11個のタンパク質配列(#prot列)からなる。

 

マニュアルより転載

 

PHROG IDをクリックすると、このIDを構成するタンパク質の情報を確認できる。


トップページの検索では、ウィルスのIDやウィルス名から含まれるPHROGを検索することもできる。

検索結果の例

Bacillus virus phi29ゲノム全長にコードされているタンパク質が機能によって色分けされて可視化されている。上半分のブロックがforward strand、下半分のブロックがreverse strandを表す。各PHROGには標準化されたアノテーションが1つだけ付与されており、それに基づいている。図の下の表は、各ORFのサイズやPHROGのアノテーション、コードされているポジションなどを示している。

 

ブロックをクリックすると、そのPHROGを構成するタンパク質の情報を確認できる。



トップページからは、一般的なウィルス名でも検索できる。

画像はlambdaの検索結果。複数ゲノムヒットしている。

表はCSVexcel形式でダウンロードできる。

 

トップページのVirus-Tableタブでは、完全長ウィルスゲノムの情報を検索し、表形式で閲覧・ダウンロードできる。

 

全PHROGは、Fasta、MSA、HMM形式、そしてアノテーションテーブルとしてトップページ下からダウンロードできる。

 

引用

PHROG: families of prokaryotic virus proteins clustered using remote homology 
Paul Terzian, Eric Olo Ndela, Clovis Galiez, Julien Lossouarn, Rubén Enrique Pérez Bucio, Robin Mom, Ariane Toussaint, Marie-Agnès Petit, François Enault Author Notes
NAR Genomics and Bioinformatics, Volume 3, Issue 3, September 2021

 

関連

https://kazumaxneo.hatenablog.com/entry/2024/03/04/223620

 

https://kazumaxneo.hatenablog.com/entry/2023/07/25/014207

 

https://kazumaxneo.hatenablog.com/entry/2022/07/03/220509