macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

対比学習による酵素機能の予測ツール CLEAN

 

 酵素の機能アノテーションは基本的な課題であり、数多くの計算機ツールが開発されている。しかし、これらのツールの多くは、研究が進んでいないタンパク質や、これまで解明されていない機能や複数の活性を持つタンパク質について、enzyme commission(EC)番号などの機能アノテーションを正確に予測することはできない。本著者らは、CLEAN(contrastive learning-enabled enzyme annotation)と名付けた機械学習アルゴリズムにより、state-of-the-artのツールBLASTpと比較して、より高い精度、信頼性、感度で酵素にEC番号を割り当てることを示す。対照学習フレームワークにより、CLEANは、(i)未解明の酵素アノテーション、(ii)誤ったラベル付けを修正、(iii)2つ以上のEC番号を持つpromiscuousな酵素の同定を自信を持って行うことができる。このツールは未知の酵素の機能を予測するために広く利用され、ゲノム科学、合成生物学、生体触媒などの多くの分野を発展させることが期待される。

 

AI predicts enzyme function better than leading tools

https://news.illinois.edu/view/6367/216677295

記事より;"「AIツールを使って酵素の受託番号を予測したのは私たちが初めてではありませんが、対照学習と呼ばれるこの新しい深層学習アルゴリズムを使って酵素の機能を予測したのは私たちが初めてです。このアルゴリズムは、他の人が使っているAIツールよりもずっとうまく機能することが分かっています」と述べている。

研究者たちは、計算機とin vitroの両方の実験で、そのツールを実験的に検証しました。その結果、このツールは、これまで解明されていなかった酵素の機能を予測できるだけでなく、有力なソフトウェアが誤って表示した酵素を修正し、2つ以上の機能を持つ酵素を正しく同定できることがわかった。”

 

Github

 ローカルでも実行できますが、ここでは著者らがホストしているweb版のCLEANを紹介します。

 

HP

https://moleculemaker.org/alphasynthesis/にアクセスする。

 

access cleanをクリックするとhttps://clean.frontend.mmli1.ncsa.illinois.edu/configurationに移動する。

 

 

タンパク質配列を入力する。負荷が高いため現在は1つの配列のみに対応している。ここではexampleの配列を指定した。

これは既に計算済みの配列のため、すぐに結果が得られる。

 

出力

タンパク質ごとに1つ以上のEC番号が付与されている。

タンパク質によっては、興味深いことに2つ以上のEC番号が付与されているものもある。

 

EC番号をクリックすると、BRENDAの該当するEC番号のページにジャンプする。BRENDAは酵素に関する包括的な情報を提供するデータベース(*1)。

 

発表直後は人気過ぎてユーザーの配列は分析できないようになっていましたが、現在は問題なく使用できます。アクセスしてみて下さい。

引用

Enzyme function prediction using contrastive learning

Tianhao Yu, Haiyang Cui, Jianan Canal Li, Yunan Luo, Guangde Jiang, Huimin Zhao

Science. 2023 Mar 31;379(6639):1358-1363

 

参考

*1

「BRENDA」酵素の性質を調べたい時に見るサイト - 学術関係

 

関連