生合成遺伝子クラスター(BGC)は、医療やバイオテクノロジーに利用可能な新規かつ特殊な代謝物をコードしている可能性があるため、(メタ)ゲノムマイニングの魅力的なターゲットとなっている。本稿では、条件付きランダムフィールド(CRF)を用いて、メタゲノムデータ中の新規BGCを高精度かつスケーラブルに同定する手法、GECCO(GEne Cluster prediction with COnditional random fields; https://gecco.embl.de) を紹介する。de novo BGC予測の広範な評価に基づき、GECCOは最先端の深層学習アプローチよりも高精度かつ3倍以上高速であることを確認した。12,000以上のゲノムに適用したところ、GECCOはルールベースのアプローチと比較して約2倍のBGCを同定し、同時に他の機械学習アプローチよりも高い精度を達成した。GECCOのCRFは、二次代謝に関連する既知および新規のタンパク質ドメインに依存していることが明らかになった。本手法は、スケーラブルで解釈可能な機械学習アプローチであり、BGCを高い精度でde novoに同定することが可能である。
インストール
依存
- supports all versions from Python 3.6.
#conda
mamba create -n gecco -y
conda activate gecco
mamba install -c bioconda gecco -y
#pip
pip install gecco-tool
> gecco -h
gecco - Gene Cluster Prediction with Conditional Random Fields
Usage:
gecco [-v | -vv | -q | -qq] <cmd> [<args>...]
gecco --version
gecco --help [<cmd>]
Commands:
annotate annotate protein features of one or several contigs.
convert convert output for compatibility with other tools
cv perform cross validation on a training set.
help display the help message of another subcommand.
run predict BGC from one or several contigs.
train train the CRF model on an embedded feature table.
Parameters:
-h, --help show the message for ``gecco`` or
for a given subcommand.
-q, --quiet silence any output other than errors
(-qq silences everything).
-v, --verbose increase verbosity (-v is verbose,
-vv is very verbose and makes the
output more suitable for logging).
-V, --version show the program version and exit.
gecco run --genome genome.fna -o outdir
Laura M. Carroll, Martin Larralde, Jonas Simon Fleck, Ruby Ponnudurai, Alessio Milanese, Elisa Cappio, Georg Zeller