タンパク質データベースのますます加速する成長により配列類似性および配列保存によるタンパク質機能研究に対して大きな可能性が提供される。しかしながら、これらのデータベースに蓄積された膨大な数のタンパク質配列はデータを分析しそしてオーガナイズする新しい方法を必要とする。機能、進化、および実験的証拠のレベルを理解するのに役立つ自動化されたアノテーションを持つクラスターを作成して、非常によく似た多数のシーケンスをグループ化する必要がある。 本著者らはFastaHerder2と呼ばれるアルゴリズムを開発した。これは、ほぼ全長の類似性および/または高い配列同一性のしきい値に基づいて、非常に類似したタンパク質配列をまとめることにより、あらゆるタンパク質データベースをクラスタリングできる。 SwissProtデータベースと一緒に50のリファレンスプロテオームを圧縮したところ、74.7%圧縮できた。クラスタリングアルゴリズムは、OrthoBenchを使用してベンチマークされ、以前のバージョンのアルゴリズムであるFASTA HERDERと比較され、FastaHerder2が前のモデルよりも低いエラー率で高い圧縮率をもたらすタンパク質のセットをクラスタリングできることを示している。論文ではタンパク質ファミリーにおける生物学的に関連のある機能的特徴を検出するためのFastaHerder2の使用について説明する。本アプローチでは、ポストゲノム時代により適したタンパク質配列データベースの見方と使用法を促進することを目指している。
manual
http://cbdm-01.zdv.uni-mainz.de/~munoz/fh2/info/help.html#mode1
使い方
http://cbdm-01.zdv.uni-mainz.de/~munoz/fh2/ にアクセスする。
Mode1 - CLUSTER プロテオーム配列(2つ以上のprotein)の長さと同一性に基づいたクラスタリング
proteinの配列セット(multi-fasta)を入力する(上限2MB)。
結果。249配列から239クラスター検出された。
.clusterはクラスターIDのファイルで、どのprotein同士が同じクラスターになっているか確認できる。
Mode2 - CO-CLUSTER 以前にクラスター化されたデータベースへのプロテオーム配列共クラスタリング(データベースはSwissProt (release 2015_05) と50のリファレンスゲノムのproteome)
proteinの配列セットを入力する。
結果が表示される。クエリの配列を全長として、データベースの同じクラスターに分類されたタンパク質が表示される。下の画像では、色がついているのがデータベースの各protein配列になる。
データベースからヒットしたタンパク質が右に並んでいる。破線は、クエリを全長として、相同性を示す領域を表している。
色は以下のようにアサインされている。
MODE3 - FIND SEQUENCE IN CLUSTERS データベースで共クラスタリングされているタンパク質の確認
タンパク質識別のUniProt AC か IDを指定して実行する。
結果(exampleファイル)
MODE4- SEARCH CLUSTERS 詳細な条件を指定しての検索
MODE4の説明はマニュアルを参照して下さい。
引用
FastaHerder2: Four Ways to Research Protein Function and Evolution with Clustering and Clustered Databases.
Mier P1,2, Andrade-Navarro MA