macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Foldseekを使ってAlphaFold UniProt DBから類似構造タンパク質を探す Foldseek server

2022/08/03 誤字修正

 

 高精度な構造予測手法により、一般に公開されているタンパク質の構造が雪崩のように増えている。これらの構造を検索することが、構造解析の主なボトルネックになりつつある。Foldseekは、大規模な構造セットを高速かつ高感度に比較することを可能にしする。Foldseekは、最新の構造アライナーと同等の感度を持ちながら、少なくとも2万倍以上の速さを実現している。Foldseekは無料のオープンソースソフトウェアで、foldseek.comやsearch.foldseek.comのウェブサーバとして利用することができる。

 

8/12

 

 

Github


ここではFoldseek serverについて紹介します。

web server

https://search.foldseek.com/searchにアクセスする。

 

AlphaFold DBやPDBに対して類似タンパク質構造を検索できる。現在4つのデータベースが選択できる。

PDBの他に、Swiss-protの配列をAlphafoldで予測したデータベースが利用できる。また、つい先日からはAlphafold/Uniprot50も追加された。Alphafold/Uniprot50というのは、AlphaFold UniProt DBを50%にクラスタリングしたものになる。AlphaFold UniProt DBは、7月末に公開された、UniRef90(Uniprot紹介)のタンパク質のほぼ全て(HP解説、数が異なるので全部か、あるいはUniRef90+αなのかどうかは分からない)をカバーする推定タンパク質構造データベースになる。このUniRef90ベースで作られたAlphaFold UniProt DBをそのままDBとして使うと相当重たいらしい(関連ツイート)。AlphaFold UniProt DBをクラスタリングして、検索速度を維持し、冗長な構造へのヒットを減らしたAlphafold/Uniprot50がここでは選べる(*1)。

 

PDBファイルを貼り付けるかアップロードしてSEARCHをクリックする。PDBかAlphaFold DBにあるタンパク質なら、アクセッションIDでも指定できる。

 

テストした時は数十秒で結果が得られた。NCBIでデータベースをUniprotにしてBLASTPサーチする時よりも短い時間かもしれない。

 

出力例

NCBI BLASTに似た出力を得られる。上のほうが構造アラインメントのカバー部位になっている。色はスコアの高さを表す。

(中略)

 

下の方が詳細になっている。スコアとE-valueが表示されている。

Targetの列のAlphaFoldタンパク質識別子は、AlphaFold DBにリンクしている。Scientific NameはNCBIにリンクしている。

 

右端のAlignmentをクリックするとアラインメントが表示される。ヒットしたタンパク質構造も表示される。

TM-scoreは、タンパク質構造のトポロジー的な類似性を評価するためのメトリックス。

 

このHTMLレポートは、CLI環境でFoldseekをランした時にもオプションをつければ出力されます(--format-mode 3使用)。Foldseekについては近いうちに紹介します。

引用

Foldseek: fast and accurate protein structure search
Michel van Kempen,  Stephanie S. Kim,  Charlotte Tumescheit,  Milot Mirdita,  Johannes Söding, Martin Steinegger
bioRxiv, Posted February 09, 2022

 

関連


*1 一般に、遺伝子配列よりもタンパク質の一次構造、タンパク質の一次構造よりも高次構造で探す方が遠縁な配列間の類似性を探しやすい。よって、Uniref50レベルのデータベースに対してタンパク質一次配列レベルで類似性検索するよりも、Uniref50レベルの推定立体構造データベースに構造レベルで類似性検索するほうが、似たタンパク質の検出感度と検出精度は高くなると考えられる(関連論文)。

例を挙げる。例えば、BLSTPでタンパク質全体に渡って30%類似したタンパク質が見つかり、それが同様の機能を有しているのか、偶然一次配列が似ているだけで、タンパク質の立体構造は異なり、したがって機能も異なるのか判断する状況を考える(短いためE-valueもあまり低くならないとする)。これはコア遺伝子探索などの文脈で良く発生する。従来、このようなケースで精度の高い答えを情報のみから得る事は難しかった。そのため、間接的な証拠を集めたり、interproscanでドメインレベルの保存性を調べたりすることが行われていた(EMBL-EBIサービス)。ドメインファミリーで全く異なるものがヒットしてくるなら、タンパク質の構造や機能は異なることが予想されるからである。しかし、精度の高い推定構造情報が得られ、それをクエリにして短時間で類似性の高いタンパク質を包括的な(推定)立体構造DBに対して問い合わせできるなら、このような作業は不要になる。精度の高い推定立体構造が得られ、超高速な構造アライナーと包括的な(推定)立体構造データベースも利用できるようになり、必要な道具と環境が揃ったことで、研究の進め方が大きく変化してきているのかもしれない(注;大きく変化したかどうかは、後になって当時を振り返らないと分からない。例えば論文の出方を調査するなど)。