2024/02/026 誤字修正
AlphaFindは、AlphaFold DBの全構造セットにおいて、構造に基づいた高速検索を提供するウェブベースの検索エンジンである。他のタンパク質処理ツールとは異なり、AlphaFindは3次構造に完全に焦点を当てており、各タンパク質鎖の主要な3D特徴を自動的に抽出し、機械学習モデルを使って最も類似した構造を見つける。この索引付けアプローチとAlphaFindで使用されている3D特徴抽出法は、大規模なデータセットや大規模なタンパク質構造に対して、共に顕著なスケーラビリティを実証している。ウェブアプリケーション自体は、わかりやすさと使いやすさを重視して設計されている。検索機能は、有効なUniprot ID、PDB ID、遺伝子シンボルを入力として受け付け、AlphaFold DBから類似タンパク質鎖のセットを、クエリと検索結果のそれぞれの間の様々な類似度メトリクスを含めて返す。主な検索機能に加えて、このアプリケーションは、検索結果の構造的類似性を即座に分析できるように、タンパク質構造の重ね合わせの3D可視化を提供する。AlphaFindウェブアプリケーションはhttps://alphafind.fi.muni.czにて登録不要で無料で利用できる。
Manual
https://github.com/Coda-Research-Group/AlphaFind/wiki/Manual
https://alphafind.fi.muni.cz/searchにアクセスする。
Uniprot ID、PDB ID、またはGene Symbolに対応している。PDB IDまたはGene Symbolは自動的にUniProt IDに変換されて使用される。検索すると、AlphaFold DB内で見つかった最も類似したタンパク質が返される。
(* マニュアルより;UniProtエントリー名(例:A0A159JYF7_9DIPT、AUX1_ARATH、F4HT52_ARATH)またはフラグメントの識別を伴うUniProtアクセッション番号(例:Q8WZ42-F1、Q8WZ42-F2)はサポートされていない)
出力例
試した時は数秒で結果が得られた。
デフォルトではTM-scoreに従ってソートされている。検索結果はソースとなる生物ごとにグループ化されており、左端の列に種名が見える。
種名とUniProt IDのほか、いくつかの類似性指標が表示されている。
表の(4) Pan troglodytes(チンパンジー)の4は、その種で見つかった類似したタンパク質の数を表す。左側の>をクリックすることで全ての配列に展開できる(下の図)。
表の展開前のUniProt IDと類似度メトリクスは、その生物で見つかった最も類似したタンパク質に対応している。
表の情報は左端の列から以下のようになっている(マニュアルより)。
- Organism - 由来生物の名前。
- UniProt ID - UniProt [UniProt2019] アクセッション番号。
- Global similarity - TM-Score - テンプレートモデリングスコア。TM-スコアは、この表の他の類似性メトリックスと同様に、US-align [Zhang2022]を使用して計算される。
- local similarity - RMSD (Å) - アラインされたCα原子の3次元座標間の距離の局所的尺度。
- local similarity - Aligned Residues - クエリタンパク質の全長に対する、アラインされた残基の部分。
- Sequence Identity - クエリタンパク質の長さに対する、2つのアラインメントされた配列内の同一アミノ酸残基の部分。
- Superposition - 下記参照
7のSuperpositionについて
右端にある2つのボタンは、左側のボタンが構造の確認ボタン、右側が再検索ボタンになっている。左側のボタンをクリックすると、クエリタンパク質と選択したタンパク質の構造の重なり(superimpose)を表示するパネルが呼び出される。
クエリタンパク質は黄色で表示され、選択された類似タンパク質は青色で表示される。左のパネルから、表示されるタンパク質の不透明度を調整したり、完全に非表示にしたりできまる。画面全体に表示するには、ウィンドウ左上の破線の□ボタン;toggle fullscreen ボタンをクリックするか、Mol* viewerにジャンプして確認する。
(注;しっかり調べたいなら、Mol*の埋め込みビューではなく多機能なMol*で確認した方が良い(Mol*紹介)。)
右端の2つ目のボタンをクリックすると、選択されたタンパク質から検索を開始できる。
ページ下部の右側にある「Export all to CSV」ボタンをクリックすると、表をCSV形式で出力できる。
(マニュアルと論文より)
- 検索時は、AlphaFoldのDB全体が[Slaninakova2021]で紹介されている非常に高速な機械学習モデルを用いて検索され、1000個の類似構造の候補セットが返される。候補セットは[Olha2022]で説明されている近似フィルタリングステップを用いてソートされ、必要な数の上位結果が回答として選択される。答えはデフォルトで50個の構造を含むが、この数はユーザが拡張でき、最初のステップで返された1000個の構造セット全体まで拡張できる。
- AlphaFindは2億1400万個のタンパク質構造が含まれているAlphaFold DB全体にインデックスを付けている。エンベッディングへの変換により、アプリケーションはデータベースを検索し 最初の50個の結果を平均7秒で返すことができる。バックエンドの負荷はごくわずかで、結果を50、100、200、300の単位で拡張することができ、 それぞれ平均7秒、9秒、11秒、15秒かかる(高負荷時にはキューに入れられる)。
- 特定の領域における局所的な類似性の高さに重点を置く傾向があるこれまでの検索手法とは異なり AlphaFindはこれらの領域があまり保存されていない生物間の構造的類似性も発見しやすい。
論文では、AlphaFindの3つの使用例がそれぞれ1つのパラグラフで簡潔に説明されています。興味のある方は読んでみて下さい。
引用
AlphaFind: Discover structure similarity across the entire known proteome
David Prochazka, Terezia Slaninakova, Jaroslav Olha, Adrian Rosinec, Katarina Gresova, Miriama Janosova, Jakub Cillik, Jana Porubska, Radka Svobodova, Vlastislav Dohnal, Matej Antol
bioRxiv, Posted February 18, 2024.
関連
Foldseek server
https://kazumaxneo.hatenablog.com/entry/2022/08/03/034502
Mol* viewer
https://kazumaxneo.hatenablog.com/entry/2024/01/26/125018
UniProtデータベースについて
https://kazumaxneo.hatenablog.com/entry/2022/07/10/162327