macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

生合成遺伝子クラスターを高精度にde novo同定する GECCO

 

 生合成遺伝子クラスター(BGC)は、医療やバイオテクノロジーに利用可能な新規かつ特殊な代謝物をコードしている可能性があるため、(メタ)ゲノムマイニングの魅力的なターゲットとなっている。本稿では、条件付きランダムフィールド(CRF)を用いて、メタゲノムデータ中の新規BGCを高精度かつスケーラブルに同定する手法、GECCO(GEne Cluster prediction with COnditional random fields; https://gecco.embl.de) を紹介する。de novo BGC予測の広範な評価に基づき、GECCOは最先端の深層学習アプローチよりも高精度かつ3倍以上高速であることを確認した。12,000以上のゲノムに適用したところ、GECCOはルールベースのアプローチと比較して約2倍のBGCを同定し、同時に他の機械学習アプローチよりも高い精度を達成した。GECCOのCRFは、二次代謝に関連する既知および新規のタンパク質ドメインに依存していることが明らかになった。本手法は、スケーラブルで解釈可能な機械学習アプローチであり、BGCを高い精度でde novoに同定することが可能である。

 

インストール

依存

GIthub

#conda
mamba create -n gecco -y
conda activate gecco
mamba install -c bioconda gecco -y

#pip
pip install gecco-tool

>  gecco -h

gecco - Gene Cluster Prediction with Conditional Random Fields

 

Usage:

    gecco [-v | -vv | -q | -qq] <cmd> [<args>...]

    gecco --version

    gecco --help [<cmd>]

 

Commands:

    annotate    annotate protein features of one or several contigs.

    convert     convert output for compatibility with other tools

    cv          perform cross validation on a training set.

    help        display the help message of another subcommand.

    run         predict BGC from one or several contigs.

    train       train the CRF model on an embedded feature table.

 

Parameters:

    -h, --help                 show the message for ``gecco`` or

                               for a given subcommand.

    -q, --quiet                silence any output other than errors

                               (-qq silences everything).

    -v, --verbose              increase verbosity (-v is verbose,

                               -vv is very verbose and makes the

                               output more suitable for logging).

    -V, --version              show the program version and exit.

 

 
 
実行方法
FASTA形式のゲノム配列を指定する。
gecco run --genome genome.fna -o outdir

GECCOによって検出されたBGCがgenbank形式でユーザーに報告される。--cdsオプションはは GECCO がBGC 領域として検出するために必要な連続した遺伝子の最小数を指定する。デフォルトでは3となっている。--thresholdオプションはBGC 領域の一部とみなされる遺伝子の確率の最小値を制御する。低い数値を使用すると、予測の数(と、場合によっては長さ)が増えるが、精度は下がる(Githubより)。

 

出力例

f:id:kazumaxneo:20220406003717p:plain

 
引用
Accurate de novo identification of biosynthetic gene clusters with GECCO
Laura M. Carroll, Martin Larralde, Jonas Simon Fleck, Ruby Ponnudurai, Alessio Milanese, Elisa Cappio, Georg Zeller
bioRxiv, Posted May 04, 2021