酵素の機能アノテーションは基本的な課題であり、数多くの計算機ツールが開発されている。しかし、これらのツールの多くは、研究が進んでいないタンパク質や、これまで解明されていない機能や複数の活性を持つタンパク質について、enzyme commission(EC)番号などの機能アノテーションを正確に予測することはできない。本著者らは、CLEAN(contrastive learning-enabled enzyme annotation)と名付けた機械学習アルゴリズムにより、state-of-the-artのツールBLASTpと比較して、より高い精度、信頼性、感度で酵素にEC番号を割り当てることを示す。対照学習フレームワークにより、CLEANは、(i)未解明の酵素のアノテーション、(ii)誤ったラベル付けを修正、(iii)2つ以上のEC番号を持つpromiscuousな酵素の同定を自信を持って行うことができる。このツールは未知の酵素の機能を予測するために広く利用され、ゲノム科学、合成生物学、生体触媒などの多くの分野を発展させることが期待される。
AI predicts enzyme function better than leading tools
https://news.illinois.edu/view/6367/216677295
記事より;"「AIツールを使って酵素の受託番号を予測したのは私たちが初めてではありませんが、対照学習と呼ばれるこの新しい深層学習アルゴリズムを使って酵素の機能を予測したのは私たちが初めてです。このアルゴリズムは、他の人が使っているAIツールよりもずっとうまく機能することが分かっています」と述べている。
研究者たちは、計算機とin vitroの両方の実験で、そのツールを実験的に検証しました。その結果、このツールは、これまで解明されていなかった酵素の機能を予測できるだけでなく、有力なソフトウェアが誤って表示した酵素を修正し、2つ以上の機能を持つ酵素を正しく同定できることがわかった。”
ローカルでも実行できますが、ここでは著者らがホストしているweb版のCLEANを紹介します。
HP
https://moleculemaker.org/alphasynthesis/にアクセスする。
access cleanをクリックするとhttps://clean.frontend.mmli1.ncsa.illinois.edu/configurationに移動する。
タンパク質配列を入力する。負荷が高いため現在は1つの配列のみに対応している。ここではexampleの配列を指定した。
これは既に計算済みの配列のため、すぐに結果が得られる。
出力
タンパク質ごとに1つ以上のEC番号が付与されている。
タンパク質によっては、興味深いことに2つ以上のEC番号が付与されているものもある。
EC番号をクリックすると、BRENDAの該当するEC番号のページにジャンプする。BRENDAは酵素に関する包括的な情報を提供するデータベース(*1)。
発表直後は人気過ぎてユーザーの配列は分析できないようになっていましたが、現在は問題なく使用できます。アクセスしてみて下さい。
引用
Enzyme function prediction using contrastive learning
Tianhao Yu, Haiyang Cui, Jianan Canal Li, Yunan Luo, Guangde Jiang, Huimin Zhao
Science. 2023 Mar 31;379(6639):1358-1363
参考
*1
「BRENDA」酵素の性質を調べたい時に見るサイト - 学術関係
関連