アミノ酸配列からタンパク質の機能を予測することは、バイオインフォマティクスの長年の課題である。従来の手法では、配列アライメントを用いて、クエリ配列を何千ものタンパク質ファミリーのモデルや個々のタンパク質配列の大規模データベースと比較する。ここでは、深層畳み込みニューラルネットワークを用いて、アラインメントされていないアミノ酸配列から、様々なタンパク質機能(EC番号やGO用語)を直接予測する。このアプローチは、アライメントベースの手法を補完する正確な予測を提供し、単一のニューラルネットワークの計算効率は、新規かつ軽量のソフトウェアインタフェースを可能にする。すべての計算をユーザーのパーソナルコンピュータで行い、データをリモートサーバーにアップロードしないタンパク質機能予測用のインブラウザグラフィカルインタフェースで実証した。さらに、これらのモデルは、全長アミノ酸配列を一般化された機能空間に配置し、下流での解析と解釈を容易にする。この論文のインタラクティブ版を読むには、https://google-research.github.io/proteinfer/ をご覧ください。
google-research/proteinfer
(HPより)ニューラルネットワークを用いて、アミノ酸配列からタンパク質の機能特性を予測するアプローチについて説明します。以下では、TensorFlow.JSを用いてデバイス上でローカルに予測を行う我々の手法の実装を試すことができます。動作の説明、モデルを探索するインタラクティブな図、そして我々の解析を再現するノートブックをお読みください。
ProteInfer HP
https://google-research.github.io/proteinfer/
Your protein sequenceに切り替えてタンパク質配列を貼り付ける。
数秒待つ結果が表示される。
結果
”Catalyzes steps of tryptophan biosynthetic pathway: an isomerase and a synthase”となった。
Predicted Enzymatic Activity
タンパク質のEC番号を予測し、その予測に最も重要なアミノ酸(残基)を緑色で強調表示する(例では、実験的に検証された EC 番号が出ているが、注釈のないタンパク質も多く存在する)。緑色のアミノ酸は、特定の酵素活性に、より関与していると予測される。回転している分子は、予測の詳細な3Dビューを提供している。この構造はX線結晶構造解析によって決定されるため、カスタム入力配列では利用できない。
EC番号にマウスカーソルを合わせると、関与する残基が緑で表示される。
Top Gene Ontology predictions
その下にはGO termが予測されている。右にはGO termの階層構造の図も表示されている。
GO termの階層構造マップの色は、予測の信頼度を 0(灰色)から 1.0(黄色) で示している。
インタラクティブデモのHPでは、この分野の歴史とアルゴリズムについて一通り説明されています。読んでみて下さい。
引用
ProteInfer: deep networks for protein functional inference
Theo Sanderson, Maxwell L. Bileschi, David Belanger, Lucy J. Colwell
bioRxiv, Posted October 06, 2021
自分がProteInferを知るきっかけになったツイート。
Now we can google protein function https://t.co/HY5cSyRc9T
— Dr. Silas Kieser (@SilasKieser) April 8, 2022
関連