タンパク質の機能は、その結合特異性や触媒活性を決定する機能的残基によって左右されるが、通常、タンパク質の機能をアノテーションする際にこれらの残基は考慮されない。生物学者がタンパク質の機能的残基を調べるのを助けるために、本著者らは2つの対話型ウェブベースツール、SitesBLASTとSites on a Treeを開発した。SitesBLASTは、タンパク質の配列が与えられると、既知の機能的残基を持つホモログを検索し、機能的残基が保存されているかどうかを表示する。Sites on a Treeは、機能的残基がタンパク質ファミリー間でどのように異なるかを系統樹上に表示する。これらのツールはhttp://papers.genomics.lbl.gov/sitesで利用できる。
多くの微生物について、ゲノム配列は入手可能であるが、タンパク質の機能は不明である。その代わりに、タンパク質の機能は他のタンパク質配列との類似性から予測される。タンパク質の配列の中で、いくつかの重要な残基が、化学反応の触媒や結合するものの決定など、機能にとって最も重要である。しかし、ほとんどの機能予測ツールはこれらの重要な残基を考慮していない。本著者らは、既知の機能残基を持つタンパク質と比較することにより、タンパク質配列中の機能残基を同定するための対話型ツールを開発した。このツールはまた、多くの類似したタンパク質間でキー残基を簡単に比較できる。このツールは、生物学者がタンパク質の機能が正しく予測されているかどうかをチェックしたり、類似したタンパク質のグループに保存された機能があるかどうかを予測したりするのに役立つはずである。
https://papers.genomics.lbl.gov/cgi-bin/sites.cgiにアクセスする。
タンパク質の配列または識別子を入力して検索する。

SitesBLASTはBLASTpを使ってクエリをデータベースと比較し、最大20のアラインメントを表示する(with E ≤ 0.001)。
example出力を見てみる。
主要な出力は、クエリとヒットした配列間のアラインメントとなる。

各アミノ酸残基は色がついており、残基の色でクエリとヒットした配列の残基が一致するかしていないかを素早く判断できる。
ここでトップヒットしたタンパク質には亜鉛イオンが配位することが知られており、その結合部位が” H212 (= H213), C214 (= C215), C313 (= C314)”と表示されている。クエリの配列でこの部位が保存されているか迅速に確認できるようになっている。

画面上部には、SitesBLAST、PaperBLAST、NCBI Conserved domainsへのリンクも用意される。

PaperBLAST(紹介);テキストマイニングによって目的のタンパク質について研究したり議論したりしている文献を見つけることができる。
NCBI Conserved Domains(紹介);クエリにどんなドメインが保存されているか確認できる。

Sites on a Tree - 機能的残基がタンパク質ファミリー間でどのように異なるかを系統樹上に表示する。SitesBLASTが一度に2つの配列を比較するのに対し、Sites on a Treeはファミリー内の複数の配列を比較し、機能的残基がファミリー内でどのように変化するか調べることができる。
さきほどのクエリを入力した場合。ハイカバレッジなヒット(≧70%)が44のキュレートされたタンパク質から見つかった。そのうち、30%以上の配列同一性のヒットが2個、30%以下の配列同一性のヒットが42となった。

Build alignmnetをクリックすると、MUSCLE 3でこれらの配列間(30%以上のヒットのみ)のアラインメントを構築できる。Build alignmnetをクリック、

========================================================
補足;30%以上のヒットを変えるには、Build alignmnetの前に配列同一性の閾値を変更する。

========================================================
MUSCLE をランする。ここでさらに配列を追加できる。
配列の追加機能は、最も参考になるのが機能既知のタンパク質配列であり、そのようなタンパク質を追加することが重要であるため。
続いてFastTree 2で系統樹を推定する。アラインメントのオプションもある。

出力
赤がクエリ。

See all positionsをクリックした。タンパク質全長のアラインメントが系統樹に沿って表示された。

See functional positionsをクリックするとSitesBLASTで機能に重要な残基だけが表示される。

コメント
論文ではSites on a Treeを使って3-ketoglycoside hydrolase familyの推定される活性部位の残基を調べています。読んでみて下さい。
引用
Interactive Analysis of Functional Residues in Protein Families
Morgan N Price, Adam P Arkin
mSystems. 2022 Dec 20;7(6):e0070522.
関連
・https://kazumaxneo.hatenablog.com/entry/2019/09/06/073000
