macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Foldseekを使ってAlphaFold UniProt DBから類似構造タンパク質を探す Foldseek server

2022/08/03 誤字修正

2023/07/10 追記

 

 高精度な構造予測手法により、一般に公開されているタンパク質の構造が雪崩のように増えている。これらの構造を検索することが、構造解析の主なボトルネックになりつつある。Foldseekは、大規模な構造セットを高速かつ高感度に比較することを可能にしする。Foldseekは、最新の構造アライナーと同等の感度を持ちながら、少なくとも2万倍以上の速さを実現している。Foldseekは無料のオープンソースソフトウェアで、foldseek.comやsearch.foldseek.comのウェブサーバとして利用することができる。

 

2023/04/05

8/12

 

 

Github


ここではFoldseek serverについて紹介します。

web server

https://search.foldseek.com/searchにアクセスする。

 

AlphaFold DBやPDBに対して類似タンパク質構造を検索できる。現在4つのデータベースが選択できる。

PDBの他に、Swiss-protの配列をAlphafoldで予測したデータベースが利用できる。また、つい先日からはAlphafold/Uniprot50も追加された。Alphafold/Uniprot50というのは、AlphaFold UniProt DBを50%にクラスタリングしたものになる。AlphaFold UniProt DBは、7月末に公開された、UniRef90(Uniprot紹介)のタンパク質のほぼ全て(HP解説、数が異なるので全部か、あるいはUniRef90+αなのかどうかは分からない)をカバーする推定タンパク質構造データベースになる。このUniRef90ベースで作られたAlphaFold UniProt DBをそのままDBとして使うと相当重たいらしい(関連ツイート)。AlphaFold UniProt DBをクラスタリングして、検索速度を維持し、冗長な構造へのヒットを減らしたAlphafold/Uniprot50がここでは選べる(*1)。

 

2022/11/15追記

利用できるデータベースがさらに増えている。

Mgnify-ESM30 v1は最近公開されたESM Metagenomic Atlasのこと(Meta社の再編成の関係で2023年8月になって開発チームは解散した。今後の更新は厳しそう)。

 

PDBファイルを貼り付けるかアップロードしてSEARCHをクリックする。PDBかAlphaFold DBにあるタンパク質なら、アクセッションIDでも指定できる。

 

テストした時は数十秒で結果が得られた。NCBIでデータベースをUniprotにしてBLASTPサーチする時よりも短い時間かもしれない。

 

出力例

NCBI BLASTに似た出力を得られる。上のほうが構造アラインメントのカバー部位になっている。色はスコアの高さを表す。

(中略)

 

下の方が詳細になっている。スコアとE-valueが表示されている。

Targetの列のAlphaFoldタンパク質識別子は、AlphaFold DBにリンクしている。Scientific NameはNCBIにリンクしている。

 

右端のAlignmentをクリックするとアラインメントが表示される。ヒットしたタンパク質構造も表示される。

TM-scoreは、タンパク質構造のトポロジー的な類似性を評価するためのメトリックス。

 

結果は左端のメニューのDownlaod ~から入手できる(画像が黒いのはダークモードを使用しているため)。

 

ダウンロードして解凍した。

 

 

このHTMLレポートは、CLI環境でFoldseekをランした時にもオプションをつければ出力されます(--format-mode 3使用)。Foldseekについては近いうちに紹介します(リンク)。

引用

Foldseek: fast and accurate protein structure search
Michel van Kempen,  Stephanie S. Kim,  Charlotte Tumescheit,  Milot Mirdita,  Johannes Söding, Martin Steinegger
bioRxiv, Posted February 09, 2022

 

追記

Foldcomp: a library and format for compressing and indexing large protein structure sets 
Hyunbin Kim, Milot Mirdita, Martin Steinegger
Bioinformatics, Volume 39, Issue 4, April 2023, btad153

 

Fast and accurate protein structure search with Foldseek

Michel van Kempen, Stephanie S. Kim, Charlotte Tumescheit, Milot Mirdita, Jeongjae Lee, Cameron L. M. Gilchrist, Johannes Söding & Martin Steinegger 
Nature Biotechnology (2023)

 

2023/06/30 追記

Foldseek gives AlphaFold protein database a rapid search tool
The structural search program makes finding proteins with similar 3D shapes easy.

https://www.nature.com/articles/d41586-023-02205-4

"Foldseekをテストするために、Steinegger氏の研究チームは、AlphaFold 2を使って形状が予測された365,000個のタンパク質のデータベースを使用した。スコアは、アルゴリズム偽陽性を検索する前に、どれだけ多くの「真陽性」(すなわち、原子モデリングに従って一定の類似性閾値以上のスコアを獲得したタンパク質)を検索したかに基づいている。Foldseekは、2つの一般的な構造ベースの検索ツールであるTM-alignとDaliを凌駕し、それぞれ24%と8%の性能向上、約35,000件と20,000件の高速検索を実現した。CLE-SWと呼ばれる構造アルファベットベースのツールとの比較では、Foldseekの方が23%優れており、11倍高速であった。"

 

2023/12/13 追記

Is Protein BLAST a thing of the past?

https://www.nature.com/articles/s41467-023-44082-5

"AlphaFoldのようなタンパク質構造検索ツールは、BLASTによるタンパク質配列検索に取って代わるのだろうか?遠隔相同性検出のための構造検索を使用すること、そして、主要な配列検索ツールであるタンパク質BLASTが構造情報を取り入れる努力をすべき理由について、その可能性を議論する。"

 

 

関連


*1 一般に、遺伝子配列よりもタンパク質の一次構造、タンパク質の一次構造よりも高次構造で探す方が遠縁な配列間の類似性を探しやすい。よって、Uniref50レベルのデータベースに対してタンパク質一次配列レベルで類似性検索するよりも、Uniref50レベルの推定立体構造データベースに構造レベルで類似性検索するほうが、似たタンパク質の検出感度と検出精度は高くなると考えられる(関連論文)。

例を挙げる。例えば、BLSTPでタンパク質全体に渡って30%類似したタンパク質が見つかり、それが同様の機能を有しているのか、偶然一次配列が似ているだけで、タンパク質の立体構造は異なり、したがって機能も異なるのか判断する状況を考える(短いためE-valueもあまり低くならないとする)。これはコア遺伝子探索などの文脈で良く発生する。従来、このようなケースで精度の高い答えを情報のみから得る事は難しかった。そのため、間接的な証拠を集めたり、interproscanでドメインレベルの保存性を調べたりすることが行われていた(EMBL-EBIサービス)。ドメインファミリーで全く異なるものがヒットしてくるなら、タンパク質の構造や機能は異なることが予想されるからである。しかし、精度の高い推定構造情報が得られ、それをクエリにして短時間で類似性の高いタンパク質を包括的な(推定)立体構造DBに対して問い合わせできるなら、このような作業は不要になる。精度の高い推定立体構造が得られ、超高速な構造アライナーと包括的な(推定)立体構造データベースも利用できるようになり、必要な道具と環境が揃ったことで、研究の進め方が大きく変化してきているのかもしれない(注;大きく変化したかどうかは、後になって当時を振り返らないと分からない。例えば論文の出方を調査するなど)。