macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

HMMER web server

 

シーケンスの類似性を検出するためのプロファイル隠れマルコフモデル(HMM)の使用は広く普及している。それらの人気は、いくつかの関連およびアラインされた配列を使用してプロファイルHMMを構築できるという事実に由来し、それを使用して大きなシーケンスデータベースを検索し、distantly relatedな配列を含む関連配列を見つけることができる(ref.1)。プロファイルHMMの感度は、位置の特定の確率的アラインメントのモデリングによって達成される。これには、残基の保存だけでなく、挿入および欠失の割合も組み込まれる。プロファイルHMMの使用は、Pfamなどのタンパク質ファミリーを表現したいデータベースに広く採用されている(ref.2)。実際、このようなデータベースは、線形の速度で成長した数少ない生物学的データリソースの一部となっている。 2010年まで、プロファイルHMMは、検索の計算コストの高さために、そのようなタンパク質ファミリーデータベースのニッチにある程度限定されていた。 HMMERスイートの第3世代の高速プロファイルHMM検索アルゴリズムにより、この計算オーバーヘッドが大幅に削減された(ref.3)。そのため、単一のCPUで約10分で1億個のタンパク質配列に対して典型的なタンパク質ベースのプロファイルHMMを検索することができる。複数のCPUで検索をスケーリングすることにより、この検索時間を数秒に短縮できる。このスケーリングアプローチを採用してHMMERウェブサーバー(ref.4)を作成した。これは2011年に初めて開始され、プロファイルHMMライブラリまたは大規模なシーケンスコレクションに対して単一のシーケンスを検索する機能を提供している。それ以来、このWebサービスの人気は大幅に向上している(検索とユーザーの合計数で測定)。インターフェイスについては過去に詳しく説明している(ref.5,6)。ここでは、ユーザーインターフェイス、アプリケーションプログラムインターフェイスAPI)、ポータブルJavaScriptライブラリ、およびサポートされているターゲットデータベースの最近の開発について説明する。(以下略)

 

Online documentation

https://hmmer-web-docs.readthedocs.io/en/latest/index.html

 

 

webサービス

https://www.ebi.ac.uk/Tools/hmmer/ にアクセスする。

f:id:kazumaxneo:20191219111406p:plain

 

f:id:kazumaxneo:20191220085446p:plain

4つのデータベースから選択できる。

Representative Sets

  • Representative Proteomes   代表的なプロテオーム(RP)は、UniRef50クラスターの配列の共通メンバーシップに基づいて計算された類似のプロテオームを含む代表的なプロテオームグループから1つのプロテオームを選択することによって決定される。代表的なプロテオームは、そのグループ内のすべてのプロテオームをシーケンス空間と情報の大部分で最もよく表すことができるプロテオームですある。 75%、55%、35%、および15%の共通メンバーシップしきい値のRPは、ターゲットデータベースとして使用できる。代表的なプロテオームに関する詳細情報がこの論文で利用可能である。データセットには、UniProtで定義されているモデル生物とウイルスリファレンスプロテオームも含まれる。

Large, comprehensive sequence collection

  • UniProtKB   Universal Protein Resourceコンソーシアムによって作成されたタンパク質配列およびアノテーションデータの包括的なリソース。

Annotated sequences and determined 3D structures

  • Swiss-Prot   UniProtが作成した、手動でレビューされた高品質のタンパク質配列と機能注釈。
  • PDB    実験的に決定された構造を持つ配列。

 

ここではRepresentative Proteomesを選んだ。

出力

Scoreタブ

f:id:kazumaxneo:20191220090322p:plain

 

検出されたUniRef50のタンパク質はUniprotにリンクされている。

 

Taxonomyタブ

f:id:kazumaxneo:20191220092455p:plain

 

クリックすると展開する。

f:id:kazumaxneo:20191220092932p:plain

 

Domainタブ

左端にヒットした配列の数が表示される。

f:id:kazumaxneo:20191220092700p:plain

Domainはpfam(*1)の情報に基づいている。

f:id:kazumaxneo:20191220093214p:plain

 

Exact matchボタンを押すと完全マッチの配列が表示される。

f:id:kazumaxneo:20191220093500p:plain

show Allで全配列が表示される。

 

Downloadタブから結果をダウンロードできる。

 

引用

HMMER web server: 2018 update
Simon C Potter, Aurélien Luciani, Sean R Eddy, Youngmi Park, Rodrigo Lopez, Robert D Finn
Nucleic Acids Research, Volume 46, Issue W1, 2 July 2018, Pages W200–W204

 

関連


 

*1

参考ページ

Pfam | タンパク質ドメインファミリーのデータベース