macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

UniProt のUniRef データベース

 

 

 UniRefデータベース (UniProt Reference Clusters) は、UniProtナレッジベースと選択されたUniParcレコード(UniParc link)からクラスター化されたシーケンスセットを提供し、複数の解像度(100%、90%、50%の同一性)でシーケンススペースを完全にカバーしながら、冗長な配列を隠す(Suzek et al 、2007)。 UniRef100データベースは、任意のソース生物からの同一の配列とサブフラグメントを単一のUniRefエントリ(つまり、クラスター)に結合する。 UniRef90およびUniRef50は、UniRef100シーケンスを90%または50%のシーケンスアイデンティティレベルでクラスタリングすることにより構築される。 UniRefエントリには、 biological discoveryを助けるためクラスターの代表的な(最良のアノテーションが付けられた)タンパク質配列、クラスターのメンバー数と一般的な分類、マージされたすべてのエントリーのアクセッション番号、UniProtKBの豊富な機能的アノテーションへのリンクなど、クラスターとメンバーシップの概要情報が含まれる。

 UniRefデータベースは10年間作成されており(論文執筆時点)、世界中の幅広いアプリケーションで使用されている。 2004年に最初にリリースされて以来、UniRefはGoogle ScholarPubMed Centralからのユニークな引用に基づいて400回以上引用されている。引用分析に基づく多くの研究では、ソースと品質のアノテーションに関する情報を保持しながら冗長性を削減するUniRefの機能が有用であることが証明されている。 UniRefデータベースの最も一般的な用途は、引き続き、機能的アノテーション、ファミリータンパク質分類、システム生物学、構造ゲノミクス、系統解析、および質量分析である。最近の研究では、UniRefを使用して、homology extension(Chang et al、2012)によるタンパク質配列アライメントの改善、 transitive alignments(Malde and Furmanek、2013)による配列検索感度の向上、代表的なプロテオームおよびプロテオームクラスターの開発(Chen et al、 2011)、疾患バリアントの機能的影響の予測(Capriotti and Altman、2011a、b; Sim et al、2012)、メタゲノムデータの機能的スクリーニングの実施(Foerstner et al、2008; Wommack et al、2012)、大規模な階層的クラスタリングアルゴリズム(Loewenstein et al。、2008)の開発、gene duplicationの研究(Rivera et al、2010)およびペプチドおよびオリゴヌクレオチドの頻度のゲノム研究の実施(Capone et al、2010)などがある。 UniProtの使用統計に基づいて、UniRef Webページは月に約20万件のヒットを受け取る。 UniRefファイルのダウンロードは開始以来着実に増加しており、近年の年間成長率は20%で、現在では年間3000を超えるユニークIPダウンロードに達している。

(一部略)

 UniRefデータベースは、2004年1月5日の最初のリリース以降、UniProt(2013)のコンポーネントとして作成されており、UniProtKBの各リリースで更新されている。詳細は以前に説明されている(Suzek et al、2007, pubmed)。簡単に言えば、データベースは階層的に生成される。 UniRef100クラスターはまずUniProtKBおよびUniParcのシーケンスを使用して生成され、UniRef90クラスターはUniRef100クラスターを使用して生成され、UniRef50クラスターはUniRef90クラスターを使用して生成される。クラスタは、CD-HITアルゴリズムの並列バージョンを使用して計算される(Li et al、2001; Li and Godzik、2006)(CD-HIT紹介)。完全更新手順によりクラスターは年の終わりにab initioで計算され、既存のクラスターの下で新しい配列のクラスター化を優先する増分手順を使用して残りの年について更新される。クラスターの代表は、キュレーションのレベル(レビュー済みと未レビュー)、タンパク質名(例:名前に仮説的または推定上の優先名が含まれていない)、ソース生物(例:モデル生物のタンパク質)およびタンパク質の長さに基づいて選択される。 UniRef識別子は、クラスターの「代表」識別子から派生し、リリース間でクラスターの約98%にわたって保持される。 UniRefの生産は継続的に強化されており、データベースの品質と情報コンテンツ、および報告される配列の爆発的な増加に対処するためのクラスター計算の効率が向上している。

 2013年1月から、UniRef90およびUniRef50データベースの計算に80%のシーケンス長オーバーラップしきい値が導入された。つまり、指定されたUniRef90およびUniRef50クラスターの各メンバーは、最長(シード)シーケンスで80%の最小長オーバーラップを持つ。 この方法で計算されたUniRefは、概念的にはPIRSFの「homeomorphic」ファミリ分類に似ている(Wu et al、2004)。 この重複しきい値は、部分配列のみを共有するタンパク質が一緒にクラスター化されるのを防ぐ。 たとえば、ポリタンパク質とその構成タンパク質、またはドメインアーキテクチャを部分的に共有するドメインファミリのクラスタなど。 しきい値は、クラスター内分子機能の一貫性も改善する。 UniRef100は、サブフラグメントから生じるシーケンスの冗長性を除去するために、オーバーラップしきい値なしで計算される。 並列クラスター計算アルゴリズム(Suzek et al、2007)は、新しいオーバーラップしきい値に対応するために改訂された。

(以下略)

 

UniProt

https://www.uniprot.org

f:id:kazumaxneo:20190826205115p:plain

 

UniRef

https://www.uniprot.org/uniref/ 

f:id:kazumaxneo:20190826203924p:plain

 

UniRef ftpサーバ

ftp://ftp.uniprot.org/pub/databases/uniprot/uniref

 

UniProt BLAST search

https://www.uniprot.org/blast/

f:id:kazumaxneo:20190826204031p:plain

 

その他

About UniProt

https://www.uniprot.org/help/about

UniProtチャンネル

引用
 a comprehensive and scalable alternative for improving sequence similarity searches
Baris E. Suzek, Yuqi Wang, Hongzhan Huang, Peter B. McGarvey, Cathy H. Wu, and the UniProt Consortium

Bioinformatics. 2015 Mar 15; 31(6): 926–932

 

参考

https://integbio.jp/dbcatalog/record/nbdc00221

 

統合TV

UniProtを使って、タンパク質のアミノ酸配列とその機能情報を横断的・網羅的に調べる

STRINGの紹介もあります。

 

関連