2023/02/22 タイトル修正
2004年に最初の論文(ref.1)が出たNCBIのCD-Searchサービスは、RPS-BLASTを用いてクエリタンパク質配列を多くのソースデータベースから収集された保存ドメインモデルと比較し、保存されているタンパク質ドメインヒットを提示する。
Conserved Domain Database (CDD) Help:
https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd_help.shtml
Conserved Domains and Protein Classification
https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
CD-Searchを選ぶ。Batch CD-Searchは複数のクエリ(multi-fasta)がある時に使う。
CD-Search
タンパク質かヌクレオチド配列を入力する。もしくは配列識別子(NCBI Entrezシステムで有効なアクセッション番号やGI番号)を指定する。
複数の配列が入力された場合、クエリは自動的にBatch CD-Searchツールにリダイレクトされる。ヌクレオチドクエリを入力した場合、その配列のソース生物に対応する遺伝暗号を用いて翻訳される。各翻訳は基本的に個別のタンパク質クエリのように処理され、6タンパク質のクエリとなる。6フレームの結果は1つのページにまとめられ、マッチしたリーディングフレームのみが表示される。
配列長の上限については、塩基配列のクエリの最大長は20万塩基対となっている。タンパク質クエリの長さに制限はない。
オプションについて
E-value - デフォルトの0.01の設定では偽陽性結果は非常にまれと書かれている。
Low Complexity Filter - 組成に偏りがあるクエリ領域をフィルタリング。デフォルトOFF。
Force Live Search - Entrez Protein データベースに登録されているタンパク質配列の GI や Accession Number をクエリとして、CD-Search の結果をライブで確認したい場合にこのオプションを使用する(通常、Entrez Protein データベースに既に登録されている配列の GI や Accession Number を含むクエリに対して、事前に計算された検索結果を表示する。これをローカルの配列と同様にライブで検索する機能)。配列が入力されると自動でONになる。
DBについて
NCBIで以下の通り説明されている。
- CDD - NCBIでキュレーションされたドメインと、Pfam, SMART, COG, PRK, TIGRFAMsからインポートしたデータを含むスーパーセット。検索用のデフォルトデータベース。
- NCBI_Curated - NCBIがキュレーションしたドメインで、立体構造情報を利用してドメイン境界、配列ブロック、配列の詳細を明示的に定義し、ファミリー内の残基保存と分岐のパターンが機能特性にどう関係するかを明らかにすることを目的としている。
Pfam - シードアラインメントをキュレートしたPfam-Aデータベースのミラー。Pfamのバージョン番号は逐次更新され変化している。SMARTと同様に、非常に短いモチーフやペプチドを記述したファミリはミラーから欠落している可能性がある。HMMベースの検索エンジンがPfamのサイトで提供されている。 - SMART - 最近のSMARTドメインのアラインメントセットのミラーサイト。SMARTファミリーの中には、更新の遅れや、CD-Searchサービスでは検出が困難な、非常に短い保存ペプチドやモチーフを記述しているために、ミラーから欠落しているものがあることに注意する。SMARTサイトで提供されているHMMベースの検索サービスを試すことも勧める。また、SMARTドメインは、複数のドメインを含む "superfamilies "であるため、CDではミラーリングされない場合があり、その場合、対応するシードアラインメントはソースデータベースから利用できない可能性があることに注意する。また、SMARTのバージョン番号は、ソースデータベース(およびミラーリングされたCD-Searchデータベース)の増分更新によって変更されないことに注意する。
- PRK - このデータベースは、原核生物および葉緑体のプラスミドとゲノムにコードされた参照配列タンパク質の関連配列(クラスタ)を集めたNCBIのコレクションである。キュレーション済みクラスタと非キュレーション(自動生成)クラスタの両方が含まれる。
- TIGRFAMs - 最近のTIGRFAMsのドメインアラインメントセットのミラー。
- COG - 原核生物に特化したオルソログタンパク質ファミリーのCOGデータベースのミラーサイト。シードアラインメントは自動生成されている。COG配列のデータベースに対してprotein-BLASTを実行する代替検索エンジン "Cognitor "がCOGサイトにて提供されている。
- KOG - COGデータベースと対をなす真核生物データベース。KOGはCDDスーパーセットには含まれないが、別データセットとして検索可能。
出力例
ここではヒトのcytochrome oxidase subunit 1を使用している。結果は、
右上から、簡潔な表示から完全な表示まで3段階で切り替え出来る。
表示についてはNCBIで説明されている。
以下の画像はConcise Resultsの説明
(NCBIより転載)
画像左端に色分けされた部分があるが、これは、ドメインヒットの信頼度(specific hits, non-specific hits)と範囲(superfamilies, multi-domains)を表す最大で 4 種類のヒットタイプを表している。簡潔表示モードでは、それぞれベストスコアのドメインモデルのみ表示されている。
4 種類のヒットについてのNCBIの説明
- Specific hit- ドメイン固有のE-valueの閾値を満たすか上回るRPS-BLASTヒット(重複する区間の他のヒットと比較)のトップランク。これは、クエリー配列がドメインモデル作成に使用した配列と同じタンパク質ファミリーに属するという非常に高い確信度を表し、したがってタンパク質クエリー配列の推定機能に対する高い確信度を表している。
- Non-specific hits - 統計的有意性のためのRPS-BLASTの閾値(デフォルトのE-value cutoffは0.01、または詳細検索オプションでユーザーが選択したE-value)を満たすか超えている。(注:非特異的ヒットは簡潔表示モードでは表示されない)。
- Superfamily - 特異的・非特異的ヒットが属するドメイン群。
- Multi-domains - 計算機で検出されたドメインモデルで、複数の単一ドメインを含む可能性が高いもの。通常、グレー色の棒グラフで表示される。
現在マウスカーソルでホバーされているドメインは下の表でハイライトされる(緑の行)。
表はE-value順に並んでいる。
それぞれのヒットはConserved Domain Databaseにリンクしている。
また、タンパク質の分類も行なわれる。分類はドメインアーキテクチャと呼ばれるタンパク質配列に注釈された1つ以上のドメインフットプリントの連続したN-からC-末端までのリストに基づいている。このドメインアーキテクチャでタンパク質を分類しているSPARCLE(Subfamily Protein Architecture Labeling Engine)(ref.2)に基づいてタンパク質は分類される。
画像のProtein CLassificationの部分がこれに相当する。cytochrome-c oxidase subunit 1と分類され、SPARCLEのIDも付いている。
クリックするとSPARCLEにジャンプする。
Batch CD-Search
複数のタンパク質配列に対する保存されたドメイン検索のためのウェブアプリケーション。1つのジョブで最大4,000のタンパク質を受け入れる。
引用
#1
CD-Search: protein domain annotations on the fly
Aron Marchler-Bauer 1, Stephen H Bryant
Nucleic Acids Res. 2004 Jul 1;32(Web Server issue):W327-31
#2
The conserved domain database in 2023
Jiyao Wang, Farideh Chitsaz, Myra K Derbyshire, Noreen R Gonzales, Marc Gwadz, Shennan Lu, Gabriele H Marchler, James S Song, Narmada Thanki, Roxanne A Yamashita, Mingzhang Yang, Dachuan Zhang, Chanjuan Zheng, Christopher J Lanczycki, Aron Marchler-Bauer
Nucleic Acids Res. 2023 Jan 6;51(D1):D384-D388
参考
Announcing new links and annotations on Conserved Domain Search results! - NCBI Insights