微生物ゲノムの解析は微生物学研究において不可欠なものとなっており、微生物種の機能や進化に関する貴重な洞察を与えている。興味のある遺伝子を特定し、それらの遺伝子に推定アノテーションを付与することは、ゲノム解析の中心的なタスクであり、このタスクのために多くのツールやアプローチが開発されてきた。ProkFunFindツールは、これらの様々なアノテーションアプローチ間のギャップを埋めるために開発され、微生物機能をアノテーションするための柔軟でカスタマイズ可能な検索アプローチを提供する。ProkFunFindは、生物学的機能の階層的定義を中心に設計されており、配列、プロファイル隠れマルコフモデル、タンパク質ドメイン、オルソロジーグループからなる異種検索語を用いて個々の遺伝子を同定することができる。この柔軟でカスタマイズ可能な検索アプローチは、特定の生物学的機能に合わせた検索を可能にし、検索結果は複数のフォーマットで出力され、下流の解析を容易にする。ProkFunFind検索ツールの有用性は、複数の遺伝子から構成される複雑なオルガネラである細菌べん毛の検索への応用を通して実証された。全体として、ProkFunFindは、微生物ゲノムの生物学的機能をアノテーションしながら、複数のタイプのアノテーションと配列データを統合するための、利用しやすく柔軟な方法を提供している。
Documentation
https://prokfunfind.readthedocs.io/en/latest/
Tutorial
https://prokfunfind.readthedocs.io/en/docs-and-tests/tutorial/1-intro.html
インストール
https://github.com/nlm-irp-jianglab/ProkFunFind?tab=readme-ov-file
mamba create -n ProkFun python=3
conda activate ProkFun
git clone https://github.com/nlm-irp-jianglab/ProkFunFind.git
cd ProkFunFind/
pip install .
#hmmer
mamba install -c bioconda -y hmmer
$ prokfunfind -h
usage: prokfunfind [-h] -f -o [-p] -g
Identify genes related functions of interest
options:
-h, --help show this help message and exit
-f , --function Path to configuration file
-o , --outputprefix The output file name prefix
-p , --processes Number of genomes to process concurrently (default=1)
-g , --gtab Table of genomes to search
テストラン
cd ProkFunFind/data/
#1 hmmの準備
cp Histidine_decarboxylase/Hdc.hmm .
hmmpress Hdc.hmm
#2 genome tableの準備
echo -e "GTDB18040\ttest-genome/" > geonme.tsv
echo -e "GTDB84856\ttest-genome/" >> geonme.tsv
#3 run
prokfunfind -f HDC/config.yaml --gtab geonme.tsv -o tmp
出力
https://prokfunfind.readthedocs.io/en/latest/outputs.html
annot.gff, json, tsv, pkl 形式のファイルは毎回出力され、それ以外のファイルは使用した検索方法に基づいて報告される。
コメント
使い方にやや癖がある印象です。
引用
Annotating microbial functions with624 ProkFunFind
Keith Dufault-Thompson, Xiaofang Jiang
mSystems. 2024 Feb 16:e0003