macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

包括的かつ品質管理されたタンパク質間相互作用のデータベース STRINGデータベース

2021 11/8 タイトル修正

 

 細胞の生命活動は、生体分子間の複雑な機能的相互作用によって成り立っている。その中でも、タンパク質-タンパク質間の相互作用は、その多様性、特異性、適応性から特に重要である。STRINGデータベースは、物理的相互作用と機能的相互作用の両方を含む、タンパク質間の既知および予測されるすべての関連性を統合することを目的としている。この目的を達成するために、STRINGはいくつかのソースから証拠を収集し、スコアリングしている。(STRINGは、科学文献の自動テキストマイニング、相互作用実験やアノテーション付き複合体・パスウェイのデータベース、共発現や保存されたゲノムコンテクストからの計算による相互作用予測、生物間の相互作用エビデンスの体系的な移動など、多くのソースから証拠を収集し、スコアリングしている。STRINGは幅広いカバレッジを目指しており、次期バージョン11.5では14,000以上の生物を収録する予定である(v11.5公開済み)。今回の更新では、テキストマイニングシステムの変更、物理的相互作用に対する新しいスコアリングモード、タンパク質ネットワークのカスタマイズ、拡張、共有のための広範なユーザーインターフェース機能について説明している。さらに、ゲノムワイドな実験データをSTRINGに照会する方法を説明している。これには、ユーザーのクエリでエンリッチされた機能の自動検出や、潜在的なバイアスの検出が含まれる。STRINGリソースは、オンラインで https://string-db.org/ で利用できる。

 

help

https://string-db.org/cgi/help?sessionId=bkM5lqj9TxOP

 

webサービス

https://string-db.org/にアクセスする。

f:id:kazumaxneo:20211028185909p:plain

v11.5では14094の生物のデータを利用できるようになった(2019年に確認した時は5000くらいだった)。

 

searchのprotein by name(左のタブの一番上)では、タンパク質名と生物名を選択してSTRINGのネットワークを調べることができる。

f:id:kazumaxneo:20211028193109p:plain

 

Multiple proteinsでは複数のタンパク質名でSTRINGのネットワークを調べることができる。

f:id:kazumaxneo:20211028193522p:plain

 

出力例

f:id:kazumaxneo:20211028193616p:plain

 

protein by sequenceやMultiple sequenceでは、ユーザーがタンパク質配列を指定して検索することができる。

 

Multiple sequenceでstring databaseにはない生物の50個のタンパク質配列を指定してみる。

f:id:kazumaxneo:20211028194010p:plain

クエリの数が多いとデフォルトのauto detectは利用できない。生物を選ぶ必要がある。

 

次の画面で、ヒットしたSTRING protein(選んだ生物の配列)とそのidentity、bit score、e-valueが表示される。O.Kなら右上のCONTINUEボタンをクリックする。

f:id:kazumaxneo:20211028194235p:plain

上の画像の1つ目のタンパク質は、複数のSTRING proteinとホモログにヒットしている。このような時はベストマッチのSTRING proteinにチェックが付く。

 

出力例

f:id:kazumaxneo:20211028194632p:plain

STRINGはある程度大規模に検索をかけても高速に応答し、とても使いやすい。

 

COGのIDから検索することもできる。

f:id:kazumaxneo:20211028194935p:plain

 

出力前に確認する。

f:id:kazumaxneo:20211028195026p:plain

 

出力例

f:id:kazumaxneo:20211028195152p:plain

 

Exampleでは3つの例が選べる。f:id:kazumaxneo:20211028195221p:plain

例1
FAA4とその最も信頼できる10の相互作用を表示。
酵母のFAA4は、長鎖脂肪酸アシル-CoA合成酵素です。他の合成酵素や調節因子との関連をご覧ください。
例2
ヒトのがん遺伝子の中で最も頻繁に変異する20個の遺伝子を表示。
予想以上に相互の関連性が高く、特徴的な分子機能がエンリッチされています。
例3
Natronococcus由来のあまり特徴のないタンパク質。
アノテーションされたドメインや機能はありませんが、DNAの複製や修復を行うタンパク質との興味深い関連性があります。

 

 

手持ちのデータ(STRINGには近い生物しかないの細菌の遺伝子クラスター)をサブミットして調べてみると、エッジが全く無いノード(クエリタンパク質)や、gene neighborhood(黄緑)のエッジしかないノードも見られた。一方で、gene neighborhood(黄緑)以外の複数のInteractionsのエッジで繋がるノードもあった。

f:id:kazumaxneo:20211028211946p:plain

エッジの注釈について

f:id:kazumaxneo:20211028211747p:plain

 

論文より

STRINGはユーザーの入力した情報をもとに自動でパスウェイ・エンリッチメント解析を行い、予想以上に頻繁に観察されるパスウェイや機能サブシステムをリストアップする(全ゲノムまたはユーザーが提供したバックグラウンド遺伝子リストをバックグラウンドにした超幾何学的検定を使用)。

f:id:kazumaxneo:20211029111700p:plain

f:id:kazumaxneo:20211029111623p:plain

STRINGでは、合計11の機能的パスウェイ分類フレームワークGene Ontologyアノテーション(3つのGOドメインすべて)、KEGGパスウェイ、UniProtキーワード、Reactomeパスウェイ、PfamとSMARTのタンパク質ドメイン、InterProタンパク質機能、を利用している。

 

ClustersからMCLクラスタリングを実行。

f:id:kazumaxneo:20211028212744p:plain


クラスタリング結果

f:id:kazumaxneo:20211028212837p:plain

f:id:kazumaxneo:20211028212846p:plain

クラスタリング結果リストはダウンロードできる。

 

基本的な機能は以前紹介しました。

 

最近出た最新の論文ではSARS-CoV-2タンパク質の解析例、数千個のタンパク質をクエリにする場合、ユーザーがランクづけした数値を元に解析を行う例もあります。このブログでは表面的な機能の一部しか紹介できていないので、興味がある方は論文を読んで実際に使ってみて下さい。

引用

The STRING database in 2021: customizable protein–protein networks, and functional characterization of user-uploaded gene/measurement sets 
Damian Szklarczyk, Annika L Gable, Katerina C Nastou, David Lyon, Rebecca Kirsch, Sampo Pyysalo, Nadezhda T Doncheva, Marc Legeay, Tao Fang, Peer Bork, Lars J Jensen, Christian von Mering

Nucleic Acids Research, Volume 49, Issue D1, 8 January 2021, Pages D605–D612