macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(ヒト)AlphaFoldでモデル化されたタンパク質間相互作用のデータベース Predictomes

 

 タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連するPPI偽陽性の豊富な予測を確実に分離することはできない。この限界に対処するため、本著者らは、十分にキュレートされたデータセットを用いて機械学習を行い、プロテオームワイドスクリーンを含め、真のPPIと偽のPPIを分離する優れた性能を示すSPOCと呼ばれるStructure Prediction and Omics informed Classifierを訓練した。SPOCを約300の human genome maintenance proteinsの all-by-all matrixに適用し、約40,000の予測を生成した。この予測はpredictomes.orgで閲覧することができ、ユーザはSPOCを使って自分の予測をスコアリングすることもできる。本アプローチで発見された信頼性の高いPPIは、ゲノム維持における新しい仮説を示唆している。この結果は、大規模なAF-Mスクリーニングを解釈するためのフレームワークを提供し、プロテオーム全体の構造相互作用の基礎を築くのに役立つ。

 

Tutorial

https://predictomes.org/tutorial

 

簡単に見てみます。

webサービス

https://predictomes.org/にアクセスする。

タンパク質間相互作用(PPI)は、事実上すべての生物学的プロセスに不可欠である。ハーバード大学医学部のウォルター研究室では、ディープラーニングシステムAlphaFold-Multimer(AF-M)を使って、PPIを系統的にスクリーニングしている。われわれはゲノム維持に焦点を当てているが、このアプローチは生物学のどの分野にも使える。

AlphaFold-Multimer(AF-M)は、AlphaFoldと同じディープラーニングの原理を使ってタンパク質複合体の構造を予測する。AF-MのColabfoldバージョンをローカルにインストールし、クラウドベースのGPUを借りて、ゲノム維持機構のコアとなるタンパク質間のバイナリーなタンパク質間相互作用(PPI)をすべて予測した。各タンパク質ペアは、テンプレートを有効にして独自に訓練された5つのAF-Mモデルのうち3つで折りたたまれた。このパイプラインは、潜在的PPIの "all-by-all "マトリックスを生成した。計算時間を節約するため、AF-M構造は緩和されなかった。AF-MがGPUの処理能力を超えるようなタンパク質ペア(合計3600残基以上)は折りたたまれれなかった。

相互作用が真である可能性が高いかどうかを評価するために、SPOCと呼ばれる分類器をトレーニングした。さらに、標準的なAF-M信頼度指標(PAE, pLDDT, pDOCKQ)と、もう一つの指標である予測に一致したAF-Mモデルの平均数("avg_models")を提供した。AlphaFold多量体データの解析に使用しているスクリプトGithub公開されている(全てマニュアルより)。

 

matrixに移動する。

https://predictomes.org/view/ddr

タイルの色の濃さは信頼度(SPOC)に比例する。

 

ドラッグして囲んだ領域が拡大される。オレンジのドットがあるタイルはPDBで見つかったペアを表す。

 

カーソルを合わせるとそのタンパク質ペアの各スコアが表示される。

SPOCの良スコアは、5%以下のFDRと定義されている。図では0.975。カットオフ値は文脈に依存する。例えば、実際の相互作用体を濃縮すべき限られたタンパク質群(IP-質量分析データなど)をスクリーニングする場合、SPOCスコアが0.75を超えると5%のFDRが達成される)。一方、真の相互作用因子の割合が低いプロテオームワイドスクリーンを行う場合、5%のFDRを達成するためには0.95のSPOCスコアが必要である(128:1の曲線)(マニュアルより)。

 

ヒートマップの指標は左上から変更できる。

関心があるタイルをクリックすると対話型構造ビューアにジャンプする。

The predicted alignment error (PAE、単位はオングストローム)は、残基の位置決め精度のグローバルな尺度である。この値は相互作用するタンパク質内およびタンパク質間のすべての残基のペアについて計算され、0から30オングストロームの範囲である。PAEプロットでは、青は低いPAE値、赤は30以上のPAE値を表す(マニュアルより)。

 

PDBに複合体構造があるもの(オレンジタイル)は、スーパーインポーズ機能も利用できる(画像右上のsuperimposeから利用可能な複合体構造を選択する)。

構造の表示、pLDDTによる残基のフィルタリング、pLDDTのような異なる測定基準による構造の色付けなどのオプションがある。

 

続き

 

メインmatrixに戻る。

 

行、列ともに特定の生物学的パスウェイだけ選べる。columnsはTelomere(11)、RowsはTelomereとATPases(11)にした。

 

マニュアルと論文より

  • AF-M予測は必然的に「偽陽性」と「偽陰性」をもたらす。実際、SPOCスコアが低くても相互作用がない証拠にはならず(低いスコアしか得られなかったいくつかの既知の複合体がある)、スコアが高くても相互作用の決定的な証拠にはならない(通常相互作用しないMCM2とMCM7のようなタンパク質パラログのスコアが良いことから分かる)。さらに調べる対象を探す場合、一般的には、SPOCのスコアが最も高いPPIを優先すること、独立したエビデンスによって支持されているもの、あるいは生物学的現象の説明に役立つものを優先することが推奨される。全ての場合において、全ての予測を検証するためには実験的証拠が不可欠である。
  • AF-Mの実行には、ローカルにインストールしたColabFoldが使用されている。予測の大部分は40GBのA100 NVIDIA GPUで実行され、サブセットはL40S NVIDIA GPUで実行された。これらのGPUのメモリ制限を考慮し、すべてのジョブの上限を合計3,600アミノ酸とした。構造が特に注目される特定のケースでは、例外的に3,600アミノ酸を超える配列に対してAF-Mが実行された(論文メソッドより)。

引用

Predictomes: A classifier-curated database of AlphaFold-modeled protein-protein interactions
Ernst W. Schmid,  Johannes C. Walter

bioRxiv, Posted April 12, 2024.

 

関連

 

コメント

Dataタブを見るとこのようになっており、将来的にさらに相互作用予測結果が増えるかもしれませんね。