macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

proteomeをクラスタリングするデータベース FastaHerder2

2016 Journal of Computational Biology web tool sequence clustering proteome UniProt

タンパク質データベースのますます加速する成長により配列類似性および配列保存によるタンパク質機能研究に対して大きな可能性が提供される。しかしながら、これらのデータベースに蓄積された膨大な数のタンパク質配列はデータを分析しそしてオーガナイズする新しい方法を必要とする。機能、進化、および実験的証拠のレベルを理解するのに役立つ自動化されたアノテーションを持つクラスターを作成して、非常によく似た多数のシーケンスをグループ化する必要がある。本著者らはFastaHerder2と呼ばれるアルゴリズムを開発した。これは、ほぼ全長の類似性および/または高い配列同一性のしきい値に基づいて、非常に類似したタンパク質配列をまとめることにより、あらゆるタンパク質データベースをクラスタリングできる。 SwissProtデータベースと一緒に50のリファレンスプロテオームを圧縮したところ、74.7％圧縮できた。クラスタリングアルゴリズムは、OrthoBenchを使用してベンチマークされ、以前のバージョンのアルゴリズムであるFASTA HERDERと比較され、FastaHerder2が前のモデルよりも低いエラー率で高い圧縮率をもたらすタンパク質のセットをクラスタリングできることを示している。論文ではタンパク質ファミリーにおける生物学的に関連のある機能的特徴を検出するためのFastaHerder2の使用について説明する。本アプローチでは、ポストゲノム時代により適したタンパク質配列データベースの見方と使用法を促進することを目指している。

manual

http://cbdm-01.zdv.uni-mainz.de/~munoz/fh2/info/help.html#mode1

使い方

http://cbdm-01.zdv.uni-mainz.de/~munoz/fh2/ にアクセスする。

Mode1 - CLUSTER プロテオーム配列（２つ以上のprotein）の長さと同一性に基づいたクラスタリング

proteinの配列セット（multi-fasta）を入力する（上限2MB）。

f:id:kazumaxneo:20190402232928p:plain

結果。249配列から239クラスター検出された。

f:id:kazumaxneo:20190402233256p:plain

.clusterはクラスターIDのファイルで、どのprotein同士が同じクラスターになっているか確認できる。

f:id:kazumaxneo:20190402233536p:plain

Mode2 - CO-CLUSTER 以前にクラスター化されたデータベースへのプロテオーム配列共クラスタリング（データベースはSwissProt (release 2015_05) と50のリファレンスゲノムのproteome）

proteinの配列セットを入力する。

f:id:kazumaxneo:20190403000201p:plain

結果が表示される。クエリの配列を全長として、データベースの同じクラスターに分類されたタンパク質が表示される。下の画像では、色がついているのがデータベースの各protein配列になる。

f:id:kazumaxneo:20190403000136p:plain

データベースからヒットしたタンパク質が右に並んでいる。破線は、クエリを全長として、相同性を示す領域を表している。

色は以下のようにアサインされている。

f:id:kazumaxneo:20190403000026p:plain

MODE3 - FIND SEQUENCE IN CLUSTERS データベースで共クラスタリングされているタンパク質の確認

タンパク質識別のUniProt AC か IDを指定して実行する。

f:id:kazumaxneo:20190403082240p:plain

結果（exampleファイル）

f:id:kazumaxneo:20190403082246p:plain

MODE4- SEARCH CLUSTERS 詳細な条件を指定しての検索

f:id:kazumaxneo:20190403082352p:plain

MODE4の説明はマニュアルを参照して下さい。

引用

FastaHerder2: Four Ways to Research Protein Function and Evolution with Clustering and Clustered Databases.
Mier P1,2, Andrade-Navarro MA

J Comput Biol. 2016 Apr;23(4):270-8, Epub 2016 Feb 1.