構造情報はミスセンス変異の病原性予測に大きな可能性を持つが、配列データと構造データの間にはよく知られたギャップがあるため、構造に基づく病原性分類法は配列に基づく分類法に比べて限界がある。本著者らは、高精度なタンパク質構造予測手法であるAlphaFold2(AF2)を活用し、疾患の原因となるミスセンスバリアントの病原性を予測するために、確立された配列とAF2ベースの構造特性を組み合わせたアンサンブル機械学習分類器であるAFFIPredを紹介する。未知のデータセットでの評価に基づき、AFFIPredはAlphaMissenseやRhapsodyのような最先端の予測器と同等レベルの性能に達した。また、完全長で非結合状態を表すAF2構造を採用することで、実験的構造を採用する場合と比較して、より正確なSolvent accessible surface area (SASA) の計算が保証されることを示した。第二に、AF2構造の完全性とともに、AF2構造の使用は、すべてのバリアントを捕捉することにより、ミスセンス変異データセットの構造特性のより包括的なビューを提供する。AFFIPredは、構造ベースの病原性分類法のよく知られた制限なしに高レベルの精度を維持し、PDBに依存しないより洗練された構造ベースの手法の開発に道を開く。AFFIPredはヒトプロテオームの2億1000万以上のバリアントを予測しており、これらはhttps://affipred.timucinlab.com/でアクセスできる。
簡単に見ていきます。
https://affipred.timucinlab.com/にアクセスする。
Start analysisをクリック。
Analysisタブ
問い合わせは、バリアントサーチとタンパク質サーチの2つの方法が利用できる。デフォルトではバリアントサーチタブがアクティブになっている(写真中央左の灰色で囲まれた中のVariant searchの部分)。
バリアントサーチタブでは、タンパク質ID<タブ区切り>タンパク質ポジション(変異前(wt)のアミノ酸-ポリペプチドでのポジション-バリアントのアミノ酸(mutation)というフォーマット)の組み合わせで問い合わせる。
もしくは下のボタンからバリアントのVCFファイルをアップロードする。Searchをクリック。
出力例
主要な結果は、表のPATHOGENICITY列などになる。画像ではRYR1のバリアントがPathogenicと判定されている。
星は、3つのAFFIPred分類器による3つの予測結果に基づいていて、3つのAFFIPredモデルが一致すると3つ星になっているらしい。
結果を解釈するため、そのタンパク質に関する情報が利用できる。表の左端から選択するとロードされる。
左側には、タンパク質の機能的な情報と関連する疾患の情報が表示される。
右側には、該当するバリアントのAF2推定構造モデルが表示され、そのバリアントのポジションのアミノ酸側鎖が示される。図はW268Aとなってる。
AF2で計算された構造は信頼性スコアを持つため、信頼性のランクによって色分けされている。
selectionからポジションを指定することで他のポジションを追加できる。
その他(論文より)
- 合計19,365個のタンパク質と対応する20,400個のAF2構造を含むヒトプロテオームの94%が処理され、合計210,156,568個のバリエーションが生成されている。欠落している6%は、事前に計算されたPSICプロファイルが不足していたため。生成されたバリエーションはすべて3つのAFFIPred分類器によって予測された。全体として変異の約四分の一が病原性を示し、残りの変異は中立と判定された。
- 大きなvcfファイルの場合は、コマンドラインインターフェイス(CLI)の使用が推奨されている。
引用
AFFIPred: AlphaFold2 Structure-based Functional Impact Prediction of Missense Variations
Mustafa Samet Pir, Emel Timucin
bioRxiv, Posted May 15, 2024.