macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

 

 UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになった。代表的なサブセットは、類似のシーケンスを一緒にクラスタリングし、クラスターごとに1つの代表を選択することで計算される。計算リソースの節約とは別に、そのようなクラスター化されたデータベースのシーケンス空間をより均等にカバーすることで、シーケンス類似性検索の感度を向上させることができる(ref.6–8)。

 人気のあるUniProt Reference Clusters(UniRef)(ref.9)は、CD-HITソフトウェアを使用して3つのステップでUniProtKBシーケンスをクラスター化することにより生成される3つのデータベースで構成されている(ref.10):UniRef90シーケンスは、少なくとも90%の配列同一性と80%の配列長重複を持つUniRef100配列をクラスター化することによって取得される(Uniref紹介)。

 ここでは、UniRefと同様に、3つの異なるクラスタリングレベルでクラスター化されたUniProtKBシーケンスの代表的なセットであるUniclustシーケンスデータベースを紹介する。ただし、UniRefはクラスタリングをCD-HITソフトウェアに依存しているが、UniclustはソフトウェアスイートMMseqs2(github.com/soedinglab/mmseqs2、Steinegger&Söding)を使用している。以下の特徴により、Uniclustデータベースはユニークで便利になる:まず、MMseqs2のリモートな相同配列に対する感度の高さにより、UniProtKBを30%の配列同一性までクラスター化できる。第二に、可能な限りコンパクトで機能的に均質な配列クラスターを生成するたをめに、MMseqs2内でカスケードクラスタリングワークフローを開発した。その結果、Uniclust90クラスターとUniclust50クラスターは、同様のクラスタリングデプスで、それぞれUniRef90とUniRef50よりも高い機能整合性スコアを示す。第三に、Pfam(ref.11)およびSCOP(ref.12)を使ってUniclustシーケンスのディープアノテーションを提供し、さらにリモート相同性検出ソフトウェアスイートであるHH-suiteを使用してPDBシーケンス(ref.13)にマッチさせる。 HH-suiteの機密性により、これらのアノテーションにInterProとHMMER3を使用するUniProtよりも17%多くのPfamドメインアノテーションを付けることができる。第4に、すべてのUniclustクラスターのMSAと、Uniclust30クラスターをローカルシーケンス一致で強化することで得られる異なる多様性レベルのMSAを備えた3つのUniboostデータベースを提供する。

 ここで説明するすべてのデータを生成するために、オープンソースbashパイプライン(github.com/soedinglab/uniclust-pipeline)を開発した:Uniclustクラスタリングクラスターサマリーヘッダー、シーケンスのドメインアノテーション、および複数のシーケンスアラインメントのUniboostデータベース。パイプラインスクリプトを補足的なアーカイブファイルとして提供し、コマンドラインオプションや理解に関係のないその他の詳細が記載されている説明が煩雑になるのを防ぐ。

 

Uniclust90、Uniclust50、Uniclust30データベースは、UniProtKBシーケンスをMMseqs2ソフトウェアにより90%、50%、30%のペアワイズシーケンスアイデンティティのレベルでクラスター化したものになる。Uniclustの配列には、Pfam、SCOPドメイン、およびPDB内のタンパク質に対してアノテーション付けられている。 ドメインアノテーションには高感度な相同性検出ツールであるHHblitsが使用されており、UniProt / InterProではアノテーションされない多くのPDB / SCOP / PFamドメインアノテーション付けが可能になっている。

 

データベースのダウンロード

Index of /~compbiol/uniclust/2018_08

 

引用

Uniclust databases of clustered and deeply annotated protein sequences and alignments
Milot Mirdita, Lars von den Driesch, Clovis Galiez, Maria J. Martin, Johannes Söding, Martin Steinegger
Nucleic Acids Research, Volume 45, Issue D1, January 2017, Pages D170–D176

 

関連