macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

タンパク質言語モデルにより正確で高速なリモート相同性配列検索を行う PLMSearch

 

 Homologous protein searchは、タンパク質のアノテーションや解析に最もよく使われる手法の一つである。構造検索と比較して、配列のみから遠い進化関係を検出することは依然として困難である。ここでは、配列のみを入力とするHomologous protein searchメソッドPLMSearch(Protein Language Model)を提案する。PLMSearchは、事前に学習させたタンパク質言語モデルのdeep representationsを利用し、多数の実際の構造類似性を用いて類似性予測モデルを学習させる。これにより、PLMSearchは配列の背後に隠された遠隔の相同性情報を捉えることができる。広範な実験結果から、PLMSearchはMMseqs2のように数百万のクエリーとターゲットタンパク質のペアを数秒で検索でき、感度を3倍以上向上させ、最先端の構造検索手法に匹敵することが示されている。特に、従来の配列検索手法とは異なり、PLMSearchは、配列は異なるが構造は類似している、最も離れた相同性ペアを呼び出すことができる。PLMSearchはhttps://dmiip.sjtu.edu.cn/PLMSearchで利用できる。

 

配列検索の普遍性と効率を維持しながら感度を向上させるために、PLMSearchを提案する。PLMSearchは主に以下の3つのステップからなる: (1) PfamClanは、同じPfam clanドメインを共有するタンパク質ペアをフィルタリングする。(2) SS-predictor (Structural Similarity predictor)は、タンパク質言語モデルによって生成されたエンベッディングを用いて、全てのクエリー-ターゲットペア間の類似性を予測する。PLMSearchは、タンパク質言語モデルを使って、 deep sequence embeddingsから遠隔相同性情報を取り込むので、構造を入力として使わなくてもそれほど感度が落ちることはない。また、このステップで使用されるSS-predictorは、構造類似度(TM-score)を学習のグランドトゥルースとして使用する。これにより、PLMSearchは構造が入力としてなくても、信頼性の高い類似度を取得することができる。(3) PLMSearchは、PfamClanによって事前にフィルタリングされたペアを、予測された類似度に基づいてソートし、それに応じて各クエリタンパク質の検索結果を出力する。その後、PLMAlignは、PLMSearchによって検索されたトップランクのタンパク質ペアの配列アラインメントとアラインメントスコアを提供する。SCOPe40-testとSwiss-Protで検索テストを行った結果、PLMSearchは常に最良の手法の一つであり、精度とスピードのトレードオフが最適であることが明らかになった。

 

help(上のメニューから選択する)

https://dmiip.sjtu.edu.cn/PLMSearch#

 

Github

https://github.com/maovshao/PLMSearch

 

webサービス

https://dmiip.sjtu.edu.cn/PLMSearch#にアクセスする。

 

問い合わせするタンパク質の配列をペーストするかファイルを指定する。

クエリの最大数は100。ただし、リクエストが多すぎるときは”Too much tasks. Please try again later.”が表示される。

 

ターゲットDBとして、Swiss-Prot(568K配列)、PDB(680K配列)、UniRef50(53.6M配列)、またはクエリデータセット自体 (Self) を選べる。デフォルトは機能がわかっているタンパク質からなるSwiss-Prot DBになっている。DBのほか、MethodをPLMSearchかSS-predictorから選べる。

PLMSearchはSS-predictor(全てのタンパク質の類似度を計算する。タンパク質のペアは類似度に基づいてランク付けされる。)とは異なり、全てのタンパク質のペアを一から検索する事は回避し、PfamClanによって事前にフィルタリングされたペアを基に検索する。

 

デモ配列を使った検索では、サブミット後に結果のページがロードされるまで数秒かかった。

 

出力例

表にトップ5のヒットした配列名、Similarity、そのUniProtとAlphaFoldへのリンク、タンパク質のfastaファイルとPDBファイル、タンパク質名、生物名、tax idへのリンクが出ている。Similarityは0.3(UniRef50では0.5)以上のタンパク質ペアのみが保持される。

上のDownloadでは、ヒットした配列のNeedleman-Wunschアルゴリズムによる配列同一性と配列アライメントファイル、PLMAlignのスコアとPLMAlignによる配列アライメントなどをダウンロードできる。

 

引用

PLMSearch: Protein language model powers accurate and fast sequence search for remote homology
Wei Liu, Ziye Wang, Ronghui You, Chenghan Xie, Hong Wei, Yi Xiong, Jianyi Yang & Shanfeng Zhu 
Nature Communications volume 15, Article number: 2775 (2024) 

 

関連