macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ProkFunFind

 

 微生物ゲノムの解析は微生物学研究において不可欠なものとなっており、微生物種の機能や進化に関する貴重な洞察を与えている。興味のある遺伝子を特定し、それらの遺伝子に推定アノテーションを付与することは、ゲノム解析の中心的なタスクであり、このタスクのために多くのツールやアプローチが開発されてきた。ProkFunFindツールは、これらの様々なアノテーションアプローチ間のギャップを埋めるために開発され、微生物機能をアノテーションするための柔軟でカスタマイズ可能な検索アプローチを提供する。ProkFunFindは、生物学的機能の階層的定義を中心に設計されており、配列、プロファイル隠れマルコフモデル、タンパク質ドメイン、オルソロジーグループからなる異種検索語を用いて個々の遺伝子を同定することができる。この柔軟でカスタマイズ可能な検索アプローチは、特定の生物学的機能に合わせた検索を可能にし、検索結果は複数のフォーマットで出力され、下流の解析を容易にする。ProkFunFind検索ツールの有用性は、複数の遺伝子から構成される複雑なオルガネラである細菌べん毛の検索への応用を通して実証された。全体として、ProkFunFindは、微生物ゲノムの生物学的機能をアノテーションしながら、複数のタイプのアノテーションと配列データを統合するための、利用しやすく柔軟な方法を提供している。

 

Documentation

https://prokfunfind.readthedocs.io/en/latest/

Tutorial

https://prokfunfind.readthedocs.io/en/docs-and-tests/tutorial/1-intro.html

 

インストール

Github

https://github.com/nlm-irp-jianglab/ProkFunFind?tab=readme-ov-file

mamba create -n ProkFun python=3
conda activate ProkFun
git clone https://github.com/nlm-irp-jianglab/ProkFunFind.git
cd ProkFunFind/
pip install .

#hmmer
mamba install -c bioconda -y hmmer

$ prokfunfind -h

usage: prokfunfind [-h] -f  -o  [-p] -g

 

Identify genes related functions of interest

 

options:

  -h, --help            show this help message and exit

  -f , --function       Path to configuration file

  -o , --outputprefix   The output file name prefix

  -p , --processes      Number of genomes to process concurrently (default=1)

  -g , --gtab           Table of genomes to search

 

 

テストラン

cd ProkFunFind/data/
#1 hmmの準備
cp Histidine_decarboxylase/Hdc.hmm .
hmmpress Hdc.hmm

#2 genome tableの準備
echo -e "GTDB18040\ttest-genome/" > geonme.tsv
echo -e "GTDB84856\ttest-genome/" >> geonme.tsv

#3 run
prokfunfind -f HDC/config.yaml --gtab geonme.tsv -o tmp

出力

https://prokfunfind.readthedocs.io/en/latest/outputs.html

annot.gff, json, tsv, pkl 形式のファイルは毎回出力され、それ以外のファイルは使用した検索方法に基づいて報告される。

 

コメント

使い方にやや癖がある印象です。

引用

Annotating microbial functions with624 ProkFunFind

Keith Dufault-Thompson, Xiaofang Jiang

mSystems. 2024 Feb 16:e0003