微生物群集は、地球の健康と生態系プロセスに不可欠な役割を果たしている。高スループットメタゲノムシーケンス技術は、これらの群集の構造と機能に関する前例のない洞察を提供してきた。しかし、既存の配列相同性に基づく手法の感度限界により、メタゲノムの機能プロファイリングは依然として制約を受けている。タンパク質構造は、配列よりも保存されており、分子機能と本質的に結びついているため、解決策を提供する。構造バイオインフォマティクスの最近の進展を活用し、本著者らは生態学的に関連する微生物の特性に特化したタンパク質構造のデータベースであるEcoFoldDBと、その伴奏パイプラインであるEcoFoldDB-annotateを提案する。EcoFoldDB-annotateは、FoldseekとProstT5タンパク質言語モデルを組み合わせて、配列データから直接構造的相同性検索を高速に行うことができる。EcoFoldDB-annotateは、メタゲノムタンパク質配列のアノテーション付けにおいて、感度と精度両面で最先端のシーケンスベース手法を凌駕した。その有用性とスケーラビリティを実証するため、世界中の土壌微生物叢から得られた8,000の高品質メタゲノムアセンブリゲノムにコードされる3,200万のタンパク質に対し、構造ガイド型機能プロファイリングを実施した。EcoFoldDB-annotateは、分類学的に限定された硝化菌からより広範な脱窒菌までの重要な窒素循環経路の系統的分割を解明し、植物の成長促進特性に富む新規の未培養細菌分類群を同定した。本著者らは、EcoFoldDBが研究者が環境ゲノムとメタゲノムから生態学的洞察を抽出することを可能にし、微生物生態学の発見を加速すると期待している。EcoFoldDBとその関連アノテーションパイプラインは、https://github.com/timghaly/EcoFoldDB から無料で利用できる。
インストール
EcoFoldDB-annotate を使うには Foldseek が必要。GPU 版は大規模メタゲノムでも高速に動作する。
GitHub
。
#環境を作ってGPU版をビルド
mamba create -n nvcc -c conda-forge cuda-nvcc cuda-cudart-dev libcublas-dev libcublas-static cuda-version=12.6 cmake -y
conda activate nvcc
git clone https://github.com/steineggerlab/foldseek.git
cd foldseek
mkdir build && cd build
#*1
cmake -DCMAKE_BUILD_TYPE=RELEASE -DCMAKE_INSTALL_PREFIX=. -DENABLE_CUDA=1 -DCMAKE_CUDA_ARCHITECTURES="native" ..
make -j20
make install
#binにパスを通す
export PATH=/full/path/to/foldseek/bin/:$PATH
#foldseek GPU版も公開されている
wget https://mmseqs.com/foldseek/foldseek-linux-gpu.tar.gz
tar xvfz foldseek-linux-gpu.tar.gz
#EcoFoldDB
git clone https://github.com/timghaly/EcoFoldDB.git
cd EcoFoldDB
chmod +x EcoFoldDB-annotate.sh
> ./EcoFoldDB-annotate.sh
Error: Missing input file
Usage: ./EcoFoldDB-annotate.sh --EcoFoldDB_dir PATH --ProstT5_dir PATH --gpu (0|1) [--foldseek_bin PATH] [--prefilter-mode (0|1)] [-e EVALUE] [--qcov QCOV] [--tcov TCOV] [--tmp-dir PATH] [--remove-tmp-files (0|1)] [-o OUTDIR] INPUT_FILE
EcoFoldDB-annotate v2.0.0
Mandatory parameters:
--EcoFoldDB_dir Full path to EcoFoldDB_v2.0 directory
--ProstT5_dir Full path to ProstT5 model directory
INPUT_FILE Input FASTA file of protein sequences to process
Optional parameters:
--foldseek_bin Path to directory containing foldseek binary
--prefilter-mode Prefilter mode. Set to 1 for GPU-accelerated search (default: 0)
-e E-value threshold (default: 1e-10)
--qcov Minimum query coverage (default: 0.8)
--tcov Minimum target coverage (default: 0.8)
--tmp-dir Temporary directory for Foldseek (default: OUTDIR/results_db/NAME_tmp)
--remove-tmp-files Remove temporary files (0=no, 1=yes) (default: 0)
-o Output directory to be created (default: EcoFoldDB_annotate)
-h, --help Show this help message
--version Show version information
データベース
DB名ProstT5_dir/としてDBをダウンロード。protT5は自然言語処理モデルをベースにタンパク質配列データで再学習された タンパク質言語モデル。
foldseek databases ProstT5 ProstT5_dir tmp --remove-tmp-files 1
ProstT5_dir/

EcoFoldDB_v2.0 DBも必要。cloneしたEcoFoldDBに含まれている。
EcoFoldDB_v2.0/

実行方法
EcoFoldDB_v2.0とProstT5のDBパス、入力protein.faaを指定する。
cd EcoFoldDB/
./EcoFoldDB-annotate.sh --EcoFoldDB_dir <path>/<to>/EcoFoldDB_v2.0/ --ProstT5_dir <path>/<to>//ProstT5_dir/ --gpu 1 input_proteins.faa
- --EcoFoldDB_dir Full path to EcoFoldDB_v2.0 directory
- --ProstT5_dir Full path to ProstT5 model directory
- --gpu Use GPU (1) or CPU (0)
- INPUT_FILE Input FASTA file of protein sequences to process
- -o Output directory to be created (default: EcoFoldDB_annotate)

GPUメモリ使用率は9GB程度で推移した。
GPU版は5分ほどで終了した(大腸菌タンパク質使用、RTX3090)。CPU版はかなり重く、10配列のアノテーションでも1分程度要した(5995WX、64スレッド)。 また、真菌prpteomeだと計算が終わるまで15分ほどかかった。 => 細菌向けなので適していない。
出力
ヒットしたEcoFoldDB内のエントリID、Foldseek検索のE値やアラインメント長などが示される(出力の詳細はまだプレプリントだからか書かれていない)。

引用
EcoFoldDB: Protein structure-guided functional profiling of ecologically relevant microbial traits at the metagenome scale
Timothy M. Ghaly, Vaheesan Rajabal, Dylan Russell, Elena Colombi, Sasha G. Tetu
bioRxiv, Posted July 08, 2025.
関連
*1
../CMakeLists.txtの4行目を削除した
cmake_policy(SET CMP0060 OLD)