ハイスループットなシークエンス技術により、大量のタンパク質配列が生成されているが、タンパク質配列のアノテーションは、低スループットで高価な生物学的実験に大きく依存している。そのため、タンパク質配列から機能的な知識を推測するために、正確かつ高速な計算代替手段が必要とされている。遺伝子オントロジー(GO)有向非循環グラフ(DAG)には、GO term間の階層的関係が含まれているが、機能予測のための機械学習アルゴリズムに統合することは困難である。本著者らは、GO DAGのトポロジーをモデル化するために最先端のグラフニューラルネットワークを使用し、変換タンパク質言語モデルによって生成された特徴を統合した、PANDA2と名付けられたタンパク質機能予測用の深層学習システムを開発した。CAFA3の上位10手法と比較すると、PANDA2は細胞成分オントロジー(CCO)で1位、生物プロセスオントロジー(BPO)で同点ながら高いカバー率を示し、分子機能オントロジー(MFO)で2位となった。また、最近開発されたDeepGOPlus、GOLabeler、DeepText2GOと比較し、別のデータセットでベンチマークしたところ、PANDA2はCCOで1位、BPOで1位、MFOで2位となった。PANDA2は、http://dna.cs.miami.edu/PANDA2/ から自由にアクセスすることができる。
http://dna.cs.miami.edu/PANDA2/にアクセスする。
タンパク質配列を貼り付け、結果を受け取るメール配列を指定する。それからSubmitをクリックする。
100配列まで対応している。
出力例
GO term予測結果のテキストはメールに添付される。
PANDA2はBPO、CCO、MFOの3つのオントロジーに対して3種類のモデルを予測するのではなく、1つのモデルを学習させ、一度にGO termを予測する。
引用
PANDA2: protein function prediction using graph neural networks
Chenguang Zhao, Tong Liu, Zheng Wang
NAR Genomics and Bioinformatics, Volume 4, Issue 1, March 2022
関連