macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

特定された生合成遺伝子群から代謝経路を再構築する BiGMeC

 

 生合成遺伝子群(BGCs)にコードされた酵素酵素複合体によって、さまざまな生理活性物質が生産されている。これらのBGCは、そのDNA配列に基づいて同定され、機能的な注釈が付けられる。さらなる研究開発のための候補は、その機能的なアノテーション、既知のBGCとの(非)類似性、生物活性アッセイなどの特性に基づいて優先順位付けされる。そのため、最適化された宿主菌株での異種発現が有望な選択肢となる。しかし、複雑な天然物を異種生産するためには、アノテーションされたBGCを代謝パスウェイに変換するための手作業が必要であり、大規模な導入や試験は困難である。そこで著者らは、生理活性物質の主要なクラスである非リボソームペプチドとポリケチドの合成を担うBGC関連の代謝パスウェイを自動で再構築するパイプラインを開発した。

 228の機能ドメインからなる8種類のBGCを詳細に評価した結果、開発したパイプラインは、代謝反応の72.8%を正しく予測した。また、再構築したパスウェイをゲノムスケールの代謝モデルに導入することで、このレベルの精度であれば、生産速度や遺伝子ノックアウトのターゲットに関して信頼性の高いインシリコ予測が可能であることを実証した。さらに、このパイプラインを大規模なBGCデータベースに適用し、943の代謝パスウェイを再構築した。その結果、17の酵素反応をハイスループットで評価し、関連する化合物の生産量を増加させるノックアウトターゲットの可能性を見出した。しかし、これらのターゲットは、野生型の生産率と比較して最大6%の相対的な増加しかもたらさない。
 今回のパイプラインにより、異種発現ホストの株設計において、ゲノムスケールの代謝モデルを拡張的に利用する道が開かれた。その結果、異種化合物の生産量を増加させるための一般的なノックアウトターゲットを特定することができた。しかし、単一反応のノックアウトターゲットでは、予測される生産量の増加はわずかであったため、これらの結果は、効率的なBGC発現ホストの開発には、より洗練された菌株工学戦略が必要であることを示している。

 

Githubより

BiGMeCパイプラインは、非リボソームペプチド合成酵素(NRPS)またはポリケチド合成酵素(PKS)生合成遺伝子群に関連する代謝パスウェイのドラフト再構築を行う。このパイプラインは、antiSMASHによって生成された個々の領域のGenbank (.gbk)ファイルを受け取り、cobrapyやCOBRA Toolboxなどの利用可能なソフトウェアを使って、ゲノムスケールの代謝モデルに容易に組み込むことができるJSONファイルを生成します。このパイプラインは、S. coelicolorのゲノム規模の代謝モデル(GEM)(Sco-GEM)を反応や代謝物のデータベースとして活用しています。

 

インストール

依存

  • python 3 (>=3.5).
  • conda or virtualenv, if you want to run the pipeline in a virtual environment (recommended).
  • pip package manager. Neccessary to install required python packages.

Github

git clone https://github.com/AlmaasLab/BiGMeC.git
cd BiGMeC/
mamba create -n bigmec python=3.6 -y
conda activate bigmec
pip install -r requirements.txt
cd Scripts/

> python bigmec.py -h

$ python Scripts/bigmec.py -h

usage: bigmec.py [-h] [-f PATH] [-o OUT] [-t TEMP] [-r REFERENCE_MODEL] [--add-to-model ADD_TO_MODEL]

 

Make a draft reconstruction of an NRPS or PKS metabolic pathway from the antiSMASH results

 

optional arguments:

  -h, --help            show this help message and exit

  -f PATH, --path PATH  Path to GenBank file(s). Can be either a file or a folder

  -o OUT, --out OUT     Directory where results are stored

  -t TEMP, --temp TEMP  Folder to store intermediate files displaying the domains and modules. For debugging.

  -r REFERENCE_MODEL, --reference_model REFERENCE_MODEL

                        Reference model for adding reactions and metabolites

  --add-to-model ADD_TO_MODEL

                        COBRA model in SBML format that the pathway should be added to. The model should use the BiGG namespace.

> python bigmec.py

$ python bigmec.py
Scaling...
A: min|aij| = 1.000e+00 max|aij| = 1.000e+00 ratio = 1.000e+00
Problem data seem to be well scaled
Running BiGMeC...
 

 

実行方法

antismashの出力ディレクトリを指定する。遺伝子クラスターの.gbkファイルが認識される。

python bigmec.py -f antismash_dir -o output_folder

出力

output_folder/

f:id:kazumaxneo:20210516114049p:plain

JSONファイルとサマリーファイルが出力される。

summary.csv

f:id:kazumaxneo:20210516114134p:plain



GEMに組み込むためのスクリプトも提供されています。レポジトリで確認して下さい。

引用

Automatic reconstruction of metabolic pathways from identified biosynthetic gene clusters
Snorre Sulheim, Fredrik A. Fossheim, Alexander Wentzel & Eivind Almaas
BMC Bioinformatics volume 22, Article number: 81 (2021)

 

 

関連

 

genome-scale metabolic model (GEM)について