macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

複数のゲノムから種を代表する代謝モデルを自動的に再構成する pan-Draft

 

 未培養生物種のゲノムスケール代謝モデル(GEM)を正確に再構築することは、メタゲノムアセンブリゲノム(MAG)に典型的に見られる不完全で断片的な遺伝情報のために困難である。既存のツールは単一ゲノムの配列相同性を利用しているが、本研究ではpan-Draftを導入し、種レベルのGEMの強固なコア構造を決定するために、再帰的な遺伝学的証拠を利用した pan-reactomeベースのアプローチを行う。種レベルでクラスター化されたMAGを比較することにより、pan-Draftは個々のゲノムの不完全性や汚染による問題に対処し、ギャップフィリングステップをサポートする高品質なドラフトモデルと付属反応カタログを提供する。このアプローチは、未培養生物種の代謝機能の理解を向上させる。

 

gapseqは以下の用途に使用できる:

  • 様々なデータベースからの代謝パスウェイの予測
  • トランスポーターの推定
  • 代謝モデル構築
  • マルチステップギャップフィリング

 

Installation

https://gapseq.readthedocs.io/en/latest/install.html

 

インストール

ソースコードはgapseqに統合されている。

Github

#conda (未テスト)
mamba create -c conda-forge -c bioconda -n gapseq gapseq
conda activate gapseq

#docker
docker run -itv $PWD:/data --rm parsaghadermazi/gapseq:latest

/gapseq/gapseq -h

# gapseq

   __ _  __ _ _ __  ___  ___  __ _ 

  / _` |/ _` | '_ \/ __|/ _ \/ _` |

 | (_| | (_| | |_) \__ \  __/ (_| |

  \__, |\__,_| .__/|___/\___|\__, |

  |___/      |_|                |_|

 

Informed prediction and analysis of bacterial metabolic pathways and genome-scale networks

 

Usage:

  gapseq test

  gapseq (find | find-transport | draft | fill | doall | adapt) (...)

  gapseq doall (genome) [medium] [Bacteria|Archaea]

  gapseq find (-p pathways | -e enzymes) [-b bitscore] (genome)

  gapseq find-transport [-b bitscore] (genome)

  gapseq draft (-r reactions | -t transporter -c genome -p pathways) [-b pos|neg|archaea|auto]

  gapseq medium (-m draft -p pathways) [-c manual_fluxes -o output_file]

  gapseq fill (-m draft -n medium -c rxn_weights -g rxn_genes)

  gapseq adapt (-a reactions/pathways | -r reactions/pathways| -w growh_compounds) -m model (-g rxn_genes, -c rxn_weights, -b reaction_blast_file)

  gapseq pan (-m draft_list -c rxn_weights_list -g rxn_genes_list -w pathways_list)

 

Examples:

  gapseq test

  gapseq doall toy/ecoli.fna.gz

  gapseq doall toy/myb71.fna.gz dat/media/TSBmed.csv

  gapseq find -p chitin toy/myb71.fna.gz

  gapseq find -p all toy/myb71.fna.gz

  gapseq find-transport toy/myb71.fna.gz

  gapseq draft -r toy/ecoli-all-Reactions.tbl -t toy/ecoli-Transporter.tbl -c toy/ecoli.fna.gz -p toy/ecoli-all-Pathways.tbl

  gapseq medium -m toy/ecoli-draft.RDS -p toy/ecoli-all-Pathways.tbl

  gapseq fill -m toy/ecoli-draft.RDS -n dat/media/ALLmed.csv -c toy/ecoli-rxnWeights.RDS -g toy/ecoli-rxnXgenes.RDS

  gapseq adapt -a 14DICHLORBENZDEG-PWY -m toy/myb71.RDS

  gapseq adapt -m toy/myb71.RDS -w cpd00089:TRUE -c toy/myb71-rxnWeights.RDS -g toy/myb71-rxnXgenes.RDS -b toy/myb71-all-Reactions.tbl

  gapseq pan -m toy/MGYG000*-draft.RDS -c toy/MGYG000*-rxnWeights.RDS -g toy/MGYG000*-rxnXgenes.RDS -w toy/MGYG000*.tbl.gz

 

Options:

  test            Testing dependencies and basic functionality of gapseq.

  find            Pathway analysis, try to find enzymes based on homology.

  find-transport  Search for transporters based on homology.

  draft           Draft model construction based on results from find and find-transport.

  medium          (gapfill-)Medium prediction based on results from find and draft

  fill            Gap filling of a model.

  doall           Combine find, find-transport, draft, (medium,) and fill.

  adapt           Add or remove reactions or pathways.

  pan             Reconstruct a pan-Draft from a list of models.

  -v              Show version.

  -h              Show this screen.

  -n              Enable noisy verbose mode.

  -K Number of threads for sequence alignments. If option is not provided, number of available CPUs will be automatically determined.

 

 

インストールチェック

docker run -itv $PWD:/data --rm -w /root parsaghadermazi/gapseq:latest bash
/gapseq/gapseq test

# gapseq test

gapseq version: 1.2 6c2ff0e9

linux-gnu

#167~18.04.1-Ubuntu SMP Wed May 24 00:51:42 UTC 2023 

 

 

#######################

#Checking dependencies#

#######################

ldconfig (Ubuntu GLIBC 2.31-0ubuntu9.16) 2.31

libsbml.so.5 -> libsbml.so.5.18.0

libglpk.so.40 -> libglpk.so.40.3.0

GNU Awk 5.0.1, API: 2.0 (GNU MPFR 4.0.2, GNU MP 6.2.0)

sed (GNU sed) 4.7

grep (GNU grep) 3.4

This is perl 5, version 30, subversion 0 (v5.30.0) built for x86_64-linux-gnu-thread-multi

tblastn: 2.9.0+

exonerate from exonerate version 2.4.0

bedtools v2.27.1

barrnap 0.9 - rapid ribosomal RNA prediction

R version 3.6.3 (2020-02-29) -- "Holding the Windsock"

R scripting front-end version 3.6.3 (2020-02-29)

Rscript NOT FOUND

git version 2.25.1

GNU parallel 20161222

HMMER 3.3 (Nov 2019); http://hmmer.org/

bc 1.07.1

 

Missing dependencies: 1

 

 

#####################

#Checking R packages#

#####################

data.table 1.15.4 

stringr 1.5.1 

sybil 2.2.0 

getopt 1.20.4 

doParallel 1.0.17 

foreach 1.5.2 

R.utils 2.12.3 

stringi 1.8.4 

glpkAPI 1.3.4 

BiocManager 1.30.23 

Biostrings 2.54.0 

jsonlite 1.8.8 

CHNOSZ 2.1.0 

httr 1.4.7 

 

Missing R packages:  0 

 

 

##############################

#Checking basic functionality#

##############################

Optimization test: OK 

Building full model: OK 

Blast test: OK

 

Passed tests: 3/3

 

テストラン

ゲノムのfastaファイルを指定する。

docker run -itv $PWD:/data --rm -w /root parsaghadermazi/gapseq:latest bash

#テストデータ
git clone https://github.com/jotech/gapseq.git
cd /gapseq/toy
/gapseq/gapseq doall myb71.fna.gz

最初にリファレンスDBのバージョンがチェックされ、最新でない場合は自動でアップデートが行われる。

出力例

myb71-medium.csv

myb71-Transporter.tbl

myb71-all-Pathways.tbl

myb71-all-Reactions.tbl

 

出力についてはwikiで説明されています。

https://gapseq.readthedocs.io/en/latest/usage/output.html

 

wikiに2つのチュートリアルが用意されている(データはレポジトリに含まれている)。

  • ”腸内細菌Eubacterium rectaleは、嫌気性条件下で酢酸をエネルギー源として利用でき、その時は最終産物として酪酸を形成する(Rivèreら(2015)Appl Envrion Microbiol)。酢酸塩は、ビフィズス菌(例:Bifidobacterium longum)を含む他の多くの異なる腸内細菌における一般的な発酵最終産物である。このチュートリアルでは、E. rectaleB. longumのゲノムスケールモデルをgapseqを用いて再構築する。その後、2つのモデルの共成長をシミュレーションし、相互作用を調べる。"
  • "古細菌は他の生物とは異なる重要な特徴を持っている。メタン生成のような特定のプロセスは古細菌にしか記述されておらず、ヒトの腸内細菌叢の10%以上を古細菌が占めると推定されている(ref.1)。このチュートリアルでは、メタン生成古細菌の復元と解析について説明する。"

引用

pan-Draft: automated reconstruction of species-representative metabolic models from multiple genomes

Nicola De Bernardini, Guido Zampieri, Stefano Campanaro, Johannes Zimmermann, Silvio Waschina & Laura Treu 
Genome Biology volume 25, Article number: 280 (2024) 

 

関連