ProTrekは、配列、構造、自然言語機能(SSF)をシームレスに融合し、先進的なトライモーダル言語モデルにすることで、タンパク質探索を再定義する。対照学習により、ProTrekはタンパク質データと人間の理解とのギャップを埋め、9つのSSFペアワイズモダリティの組み合わせで電光石火の速さで検索を可能にする。(1)タンパク質の配列と機能の相互変換を30-60倍高速化。(2)現在のアライメントツール(FoldseekやMMseqs2)を速度(100倍高速化)と精度の両方で上回り、多様な構造を持つ機能的に類似したタンパク質を同定する。これらの結果は、ProTrekがタンパク質の検索、理解、解析のコアツールになることを示唆している。
アライメントベースのツールは、アミノ酸(AA)配列ベースまたは構造ベースのアライメント法を利用し、タンパク質解析を発展させてきた。しかし、これらのツールは主に局所的なアライメントに焦点を当てており、大域的な洞察を見落とす可能性がある。さらに、既存の手法は通常、配列または構造という単一のモダリティからのデータを扱うため、複数のモダリティをアライメントする能力が制限されている。最近、ニューラルネットワークベースの機能アノテーションツールが登場し、与えられたタンパク質に対応するアノテーションを同定することができるようになった。しかし、これらのアノテーションツールは、事前に定義されたラベルに基づいているため、自然言語を理解する能力がなく、タンパク質機能の正確なテキスト記述を提供したり、長いテキスト記述からタンパク質を同定したりする能力を妨げている。
一方、ChatGPTやLlamaのような大規模な言語モデルは、多くの自然言語処理タスクで顕著な性能を示している。同時に、タンパク質言語モデル(PLM)は、タンパク質の分野で注目すべき研究分野として浮上してきた。これらの進歩に触発され、本著者らは、このような言語モデル技術を用いて、タンパク質のsequence, structure, and function (SSF) を共同で表現できる基礎タンパク質モデルを確立することが可能かどうかを問う。このようなモデルは、タンパク質の領域における多くの予測や解析タスクを強化することが期待される。
ここでは、タンパク質のSSFを共同でモデル化する3モードPLMであるProTrekを紹介する。ProTrekは対照学習を採用し、3つのコアアライメント戦略を持つ: (1)構造をAA配列のスーパーバイズシグナルとして用いる、(2)配列と機能の相互スーパーバイズ、(3)構造と機能の相互スーパーバイズ。このトライモーダルアライメントトレーニングにより、Pro-Trekは、本物のサンプルペア(配列-構造、配列-機能、構造-機能)を近づける一方、ネガティブサンプルを潜在空間内で遠ざけることで、SSFを厳密に関連付けることができる。
ProTrekには、650MのAA配列エンコーダ、150Mの構造エンコーダ、130Mの機能エンコーダを搭載した大型バージョンと、35Mの配列エンコーダ、35Mの構造エンコーダ、130Mの機能エンコーダを搭載した小型バージョンの2種類がある。推論中、ProTrekは最大内積探索(MIPS)アルゴリズムを採用し、対応するデータベースから最も関連性の高いタンパク質配列、構造、機能を迅速に検索する。これにより、ProTrekは数十億のエントリーを持つデータベースへのクエリであっても、わずか1、2秒で検索を完了することができる。
(1)ProTrekは強力な検索機能を備えた言語モデルであり、研究者はタンパク質全体にわたる9つの異なる検索タスクを通じて、タンパク質配列-構造-機能の複雑な相互作用を探索することができる(論文図1b)。具体的には、ProTrekはAA配列が与えられると、関連する構造を同定し、機能的な説明を提供し、類似した構造と機能をコードする他のAA配列を見つけることができる。逆に、タンパク質の構造が与えられると、対応するAA配列と機能的記述を検索することができる。さらに、ProTrekは、テキスト記述に基づいて、特定の機能に関連するタンパク質配列や構造を発見することができる。ProTrekは、ESM、ProtTrans、Saprotのような他の一般的なPLMと同様に、様々な下流予測タスクのための新しいデータ上でタンパク質配列または構造エンコーダの転送と微調整を可能にする、卓越した表現モデルとしても機能する。
🧬 ProTrek Major Update:
— fajie yuan (@duguyuan) January 2, 2025
Added: 2B+ marine proteins from GOPC
Total: 2.25B+ searchable proteins
Natural language protein search powered by trimodal PLM
🔍 Try now: https://t.co/CEA1LvGWTh
Paper: https://t.co/bdio8oaRa7 pic.twitter.com/Y2ECECPjCJ
”ProTrekは生物学的研究のために高い精度と迅速なクエリを組み合わせていて、何十億ものタンパク質のエントリーを自然言語で検索できる。ProTrekの精度は、主に、先行研究の100倍以上の大規模かつ高品質なデータセットから得られている。”
The Colab version of ProTrek
http://search-protrek.com/にアクセスする。

入力タイプの指定(例:'text'はテキスト記述に基づく検索を意味する)。配列やPDBの構造で検索することもできるが、テキストで記述して検索することが推奨されている。

出力タイプ('sequence'はシーケンスを返すことを意味する)。右側のDatabaseは配列を探すデータベースのことで、デフォルトはSwiss-Protとなっている。その下が入力で、入力タイプにtextを指定した場合、ここに自然言語でタンパク質の特性を記述する。

DBについて:https://github.com/westlake-repl/ProTrek/wiki/Database-introduction
example ”Catalyzes the hydrolysis of cutin, a polyester that forms the structure of plant cuticle ” を入力した。このように、blastpやdiamondと違ってタンパク質の説明を記述して最も一致するタンパク質を探す。

トップ5つを返す設定で検索実行。
OMG_prot50やGOMCのような巨大なタンパク質空間だとそれなりの時間がかかるが、Swiss-Protだとすぐに結果は返ってくる。
実行結果
結果は右側に表示される。ワイドディスプレイのほうが見やすいと思われる。

表はTSV形式でダウンロードできる。

出力タイプにsequenceを選択したので、アミノ酸配列が表示されている。右側のMatchinbg scoreは、クエリと出力間のマッチングスコアとなる。
マッチングスコアは下側のCompute similarity score between two modalitiesからも算出可能(同じ値が得られる)。

さきほどの記述内容をinput2に、出力の1つをinput1に貼り付けた。

Similarity scoreが右側にプリントされる。18.0662となり、上の出力のMatching scoreと一致している。

How to judge whether the similarity score is high or low?
作成中
論文より
- 人間がレビューしたSwiss-Protデータセット上で、ProTrekを2つの最新手法ProteinDTとProtSTと比較した。公正な評価のために、テストセットに含まれるタンパク質は、トレーニングセットに含まれるタンパク質と50%以下の配列同一性を持つ。さらに、テキスト-タンパク質(配列/構造)タスクのために、UniProtからランダムにサンプリングした100,000個のタンパク質を未知の否定例として含め、他のデータベースに対するProTrekの一般性を評価した。ProTrekはほとんどの機能カテゴリーでProteinDTとProtSTを大幅に上回り、グローバル検索タスクでは30倍と60倍以上の改善を達成した。ProTrekの卓越した性能は、ProteinDTやProtSTよりも2桁大きい、非常に大きなトレーニングデータセットに起因することは明らかである。
- MMseqs2、DIAMOND、BLASTP、最新の構造アライナーであるFoldseekなどの有名なアライメントベースのツールと比較することで、タンパク質の相同性を検出するProTrekの性能を評価した(図2b)。
- ProTrekのもう一つの利点は、MIPSに支えられた推論速度であり、FoldseekやMMseq2を100倍以上上回る、数十億スケールのデータベースを数秒で高速に検索・ソートできる(図2c)。現在、入手可能な最速のアライメントアルゴリズムのタイトルを保持している。
- SaprotHubのアプローチに従って、Google Colab版のProTrekの開発に取り組んでいる。
引用
ProTrek: Navigating the Protein Universe through Tri-Modal
Jin Su, Xibin Zhou, Xuting Zhang, Fajie Yuan
bioRxiv, posted September 11, 2024.
Global ocean microbiome catalogue (GOMC)
”極点から極点まで(緯度範囲は南緯77.90度から北緯89.99度まで)、表層海洋から水深10,000mのハダルトレンチまで、幅広い海洋環境をカバーする24,395の公開海洋メタゲノムから、合計237.02 Tbのシーケンスデータを収集した。我々は、個々のサンプルをビニングするアプローチを考案し、43,191個の中~高品質のメタゲノム集合ゲノム(MAG)を再構築した。その後、冗長性を除去するためにデレプリケーションを行い、138の植物門にわたって16,240個のユニークなMAGを得た。これらのユニークなMAGを公開されている海洋原核生物ゲノム(NCBI、OMD、OceanDNA)と組み合わせることで、これまでで最も包括的なグローバル海洋マイクロバイオームカタログ(GOMC)を構築した。”
https://db.cngb.org/maya/datasets/MDB0000002
ProTrekとは関係ありませんが、GOMCのサイトで2,458,203,511遺伝子(24億遺伝子)となっているのが少し気になります。アセンブルとビニングで得られたraw MAG数が43,191と書かれているので、これで24億を割ると2,458,203,511/43,191で1個のゲノムあたり56914遺伝子配列となり、原核生物ゲノムの平均的な遺伝子コード数を大きく上回ります。ビニング前のraw assemblyから遺伝子予測したんでしょうか。2.4億ならわかるんですがちょっと気になりました
(注;NCBIの原核生物ゲノム数はMAGを含めると280万近くに急上昇しているので、冗長性を全く考えなければNCBIの原核生物ゲノムから予測される遺伝子数のほうが遥かに多い)。
関連
Evolla-10B
