macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

微生物の機能をGO termの形で予測する DeepGOMeta

 

 微生物サンプルの解析は、その多様性と複雑性のために、依然として計算上困難である。ロバストなde novoタンパク質機能予測法の欠如は、これらのサンプルから機能的洞察を導き出すことの難しさを悪化させている。相同性や配列の類似性に依存する従来の予測手法では、新規タンパク質やホモログが知られていないタンパク質の機能を予測できないことが多い。さらに、これらの手法のほとんどは、主に真核生物のデータに対して学習されたものであり、微生物のデータセットに対する評価や適用は行われていない。本研究では、微生物に関連するデータセットで学習させた、ジーオントロジー(GO)の語彙としてのタンパク質機能予測用に設計された深層学習モデルDeepGOMetaを紹介する。このモデルは、新しい評価戦略を用いて検証され、多様な微生物データセットに適用されている。データとコードはhttps://github.com/bio-ontology-research-group/deepgometaで利用できる。

 

DeepGOMetaは微生物種(原核生物古細菌、ウイルス)に属するUniProtKB/Swiss-Prot Knowledgebaseタンパク質でトレーニング、テスト、評価されている。DeepGOMetaは、GO termの形で機能予測を提供する。

インストール

推奨されている通り、dockerイメージを使ってテストした。使用前にdockerがGPUを認識できるようにしておく必要がある(*1)(os: ubuntu20)。

  • The code was developed and tested using python 3.10.
  • You'll need around 30Gb storage and a GPU with >16Gb memory (or you can use CPU)

Github

#ここではdockerを使用(dockerhub)
docker pull coolmaksat/deepgometa

> docker run --rm coolmaksat/deepgometa python predict.py --help

Usage: predict.py [OPTIONS]

 

Options:

  -if, --in-file TEXT        Input FASTA file  [required]

  -dr, --data-root TEXT      Prediction model

  -t, --threshold FLOAT      Prediction threshold

  -bs, --batch-size INTEGER  Batch size for prediction model

  -d, --device TEXT          Device

  --help                     Show this message and exit.

 

 

モデルのダウンロード(800MBほど)

wget https://deepgo.cbrc.kaust.edu.sa/data/deepgometa/data.tar.gz
unzip data.tar.gz

 

実行方法

タンパク質のfastaファイルを指定する。解凍したdata/をdockerと共有するため、解凍したdata/の1つ上に移動して実行する。下のコマンドではexample.faを解凍したdata/に配置している。

docker run --rm --gpus all -v $(pwd)/data:/workspace/deepgometa/data coolmaksat/deepgometa python predict.py -if data/example.fa

実行すると、初めにESM-2のモデルがダウンロードされる。細菌株のproteome 4000配列のアノテーションに40分ほどかかった(GPU: RTX3090)。

 

example.faaを指定した場合、example/にGO termの3つのカテゴリに相当する、example_preds_mf.tsv.gz、example_preds_cc.tsv.gz、example_preds_bp.tsv.gzが出力される。

gless example_preds_mf.tsv.gz

タンパク質ごとに複数のGO termが1行に1つずつ記載されている。多くの配列に複数のGO termがついている。出力について、レポジトリには説明が見当たらなかった。

 

  • DeepGOMetaは、Dockerイメージを使用してNextflowワークフローとして実行することもできる。
  • (論文より)MGnifyタンパク質データベースから2,000個のタンパク質をアノテーションする際に、既存のPfamアノテーションを持つタンパク質は567個に過ぎなかったのに対し、DeepGOMetaは2,000個のタンパク質全てのアノテーションに成功した。一方、このサブセットにはPfamのアノテーションがないため、予測の機能的関連性と精度を直接検証する上では課題がある。

引用

DeepGOMeta: Predicting functions for microbes
Rund Tawfiq,  Kexin Niu,  Robert Hoehndorf,  Maxat Kulmanov

bioRxiv, Posted January 31, 2024.

 

*1

こちらを参考にしました。

https://zenn.dev/derbuihan/articles/a1e636d29e1b51