macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

タンパク質構造のモチーフを超高速に検索する Folddisco

2025/08/17 指摘いただいた部分を修正

 

 大量の構造コレクションから、機能的に重要な短い3Dパターンである類似したタンパク質構造モチーフを検出することは、計算上非常に困難である。そこで本著者らは Folddisco を開発した。Folddisco は、側鎖の向きを含む位置非依存の幾何学的特徴のインデックスと、希少性に基づくスコアリングシステムを組み合わせることで、この課題を克服する。Folddisco は 53 millionの AFDB50 構造を 24 時間以内に 1.45 テラバイトにインデックス化し、離散的または区間的なモチーフを迅速に検出可能する。Folddisco は、最新の手法よりも精度とストレージ効率に優れ、さらに桁違いに高速である。Folddisco は無料ソフトウェアとして folddisco.foldseek.com で入手可能で、ウェブサーバーは search.foldseek.com/folddisco で利用できる。

 

 

インストール

Github

 

webインターフェイス

https://search.foldseek.com/folddisco

 

タンパク質構造をPDB形式かmmCIFで入力する。

 

どのポジションのアミノ酸残基がモチーフであるかを アミノ酸残基のポジションとアミノ酸名の1文字表記で指定する。PDB の chain IDで指定する(chain: タンパク質複合体の各サブユニットのポリペプチド鎖)。F207ならchain F の 207番目の残基となる。

Folddisco はこうした離れた残基の組み合わせを超高速に検索する。

 

選択できるD.B

 

出力例

各ヒットはAFDBやUniprot、ESM30などにリンクしている。

 

デフォルトではモチーフフィルターがONの状態となっている。その場でOFFにして検索結果を閲覧することも可能。

 

clusterをONにすると、検出した似たモチーフ同士がグルーピングされる。

ほとんどのタンパク質がクラスタ1に含まれた。

 

論文より

  • Foldseek は「全体構造の類似性」に強く、Folddisco は「部分モチーフの検索」に特化している。例えばモチーフ内の低分子配位部位のアミノ酸残基が強く保存されたタンパク質を探すことができる。
  • Foldseekはモチーフ検出を目的として設計されておらず、残基が線形順序で一致することを前提としているため、構造モチーフに一般的な、離れた位置の一致部分が非線形に並ぶパターンには対応できない。また、現行のモチーフ検索手法には、クエリモチーフの種類や長さの柔軟な扱いができない。例えば、RCSBのサービスでは最大10残基までのクエリモチーフしか対応できず、短いモチーフに限定されてしまう。アライメントベースの断片検索法であるMASTER (19) のような手法は、長く不連続なクエリも扱えるが、triadsやジンクフィンガーのような短いモチーフは苦手とする。
  • Folddiscoは、短いモチーフクエリと長く不連続なセグメントの両方に対応できる初めてのモチーフ検索アルゴリズムである。Folddiscoは大規模構造データに対して効率的に動作し、5,300万構造を24時間以内(<1.5TB)でインデックス化でき、クエリは数秒で処理可能である。この性能は最新手法と比べて18倍以上高速で、ストレージ使用量も3.5倍以上少ない。

引用

Structural motif search across the protein-universe with Folddisco

Hyunbin Kim,  Rachel Seongeun Kim,  Milot Mirdita,  Martin Steinegger

bioRxiv, Posted July 06, 2025.

 

PS.

間違った記載部分を教えていただきありがとうございました。