未培養生物種のゲノムスケール代謝モデル(GEM)を正確に再構築することは、メタゲノムアセンブリゲノム(MAG)に典型的に見られる不完全で断片的な遺伝情報のために困難である。既存のツールは単一ゲノムの配列相同性を利用しているが、本研究ではpan-Draftを導入し、種レベルのGEMの強固なコア構造を決定するために、再帰的な遺伝学的証拠を利用した pan-reactomeベースのアプローチを行う。種レベルでクラスター化されたMAGを比較することにより、pan-Draftは個々のゲノムの不完全性や汚染による問題に対処し、ギャップフィリングステップをサポートする高品質なドラフトモデルと付属反応カタログを提供する。このアプローチは、未培養生物種の代謝機能の理解を向上させる。
gapseqは以下の用途に使用できる:
Installation
https://gapseq.readthedocs.io/en/latest/install.html
インストール
ソースコードはgapseqに統合されている。
#conda (未テスト)
mamba create -c conda-forge -c bioconda -n gapseq gapseq
conda activate gapseq
#docker
docker run -itv $PWD:/data --rm parsaghadermazi/gapseq:latest
/gapseq/gapseq -h
# gapseq
__ _ __ _ _ __ ___ ___ __ _
/ _` |/ _` | '_ \/ __|/ _ \/ _` |
| (_| | (_| | |_) \__ \ __/ (_| |
\__, |\__,_| .__/|___/\___|\__, |
|___/ |_| |_|
Informed prediction and analysis of bacterial metabolic pathways and genome-scale networks
Usage:
gapseq test
gapseq (find | find-transport | draft | fill | doall | adapt) (...)
gapseq doall (genome) [medium] [Bacteria|Archaea]
gapseq find (-p pathways | -e enzymes) [-b bitscore] (genome)
gapseq find-transport [-b bitscore] (genome)
gapseq draft (-r reactions | -t transporter -c genome -p pathways) [-b pos|neg|archaea|auto]
gapseq medium (-m draft -p pathways) [-c manual_fluxes -o output_file]
gapseq fill (-m draft -n medium -c rxn_weights -g rxn_genes)
gapseq adapt (-a reactions/pathways | -r reactions/pathways| -w growh_compounds) -m model (-g rxn_genes, -c rxn_weights, -b reaction_blast_file)
gapseq pan (-m draft_list -c rxn_weights_list -g rxn_genes_list -w pathways_list)
Examples:
gapseq test
gapseq doall toy/ecoli.fna.gz
gapseq doall toy/myb71.fna.gz dat/media/TSBmed.csv
gapseq find -p chitin toy/myb71.fna.gz
gapseq find -p all toy/myb71.fna.gz
gapseq find-transport toy/myb71.fna.gz
gapseq draft -r toy/ecoli-all-Reactions.tbl -t toy/ecoli-Transporter.tbl -c toy/ecoli.fna.gz -p toy/ecoli-all-Pathways.tbl
gapseq medium -m toy/ecoli-draft.RDS -p toy/ecoli-all-Pathways.tbl
gapseq fill -m toy/ecoli-draft.RDS -n dat/media/ALLmed.csv -c toy/ecoli-rxnWeights.RDS -g toy/ecoli-rxnXgenes.RDS
gapseq adapt -a 14DICHLORBENZDEG-PWY -m toy/myb71.RDS
gapseq adapt -m toy/myb71.RDS -w cpd00089:TRUE -c toy/myb71-rxnWeights.RDS -g toy/myb71-rxnXgenes.RDS -b toy/myb71-all-Reactions.tbl
gapseq pan -m toy/MGYG000*-draft.RDS -c toy/MGYG000*-rxnWeights.RDS -g toy/MGYG000*-rxnXgenes.RDS -w toy/MGYG000*.tbl.gz
Options:
test Testing dependencies and basic functionality of gapseq.
find Pathway analysis, try to find enzymes based on homology.
find-transport Search for transporters based on homology.
draft Draft model construction based on results from find and find-transport.
medium (gapfill-)Medium prediction based on results from find and draft
fill Gap filling of a model.
doall Combine find, find-transport, draft, (medium,) and fill.
adapt Add or remove reactions or pathways.
pan Reconstruct a pan-Draft from a list of models.
-v Show version.
-h Show this screen.
-n Enable noisy verbose mode.
-K Number of threads for sequence alignments. If option is not provided, number of available CPUs will be automatically determined.
インストールチェック
docker run -itv $PWD:/data --rm -w /root parsaghadermazi/gapseq:latest bash
/gapseq/gapseq test
# gapseq test
gapseq version: 1.2 6c2ff0e9
#167~18.04.1-Ubuntu SMP Wed May 24 00:51:42 UTC 2023
#######################
#Checking dependencies#
#######################
ldconfig (Ubuntu GLIBC 2.31-0ubuntu9.16) 2.31
libsbml.so.5 -> libsbml.so.5.18.0
libglpk.so.40 -> libglpk.so.40.3.0
GNU Awk 5.0.1, API: 2.0 (GNU MPFR 4.0.2, GNU MP 6.2.0)
This is perl 5, version 30, subversion 0 (v5.30.0) built for x86_64-linux-gnu-thread-multi
tblastn: 2.9.0+
exonerate from exonerate version 2.4.0
bedtools v2.27.1
barrnap 0.9 - rapid ribosomal RNA prediction
R version 3.6.3 (2020-02-29) -- "Holding the Windsock"
R scripting front-end version 3.6.3 (2020-02-29)
Rscript NOT FOUND
git version 2.25.1
GNU parallel 20161222
HMMER 3.3 (Nov 2019); http://hmmer.org/
bc 1.07.1
Missing dependencies: 1
#####################
#Checking R packages#
#####################
data.table 1.15.4
stringr 1.5.1
sybil 2.2.0
getopt 1.20.4
doParallel 1.0.17
foreach 1.5.2
R.utils 2.12.3
stringi 1.8.4
glpkAPI 1.3.4
BiocManager 1.30.23
Biostrings 2.54.0
jsonlite 1.8.8
CHNOSZ 2.1.0
httr 1.4.7
Missing R packages: 0
##############################
#Checking basic functionality#
##############################
Optimization test: OK
Building full model: OK
Blast test: OK
Passed tests: 3/3
テストラン
ゲノムのfastaファイルを指定する。
docker run -itv $PWD:/data --rm -w /root parsaghadermazi/gapseq:latest bash
#テストデータ
git clone https://github.com/jotech/gapseq.git
cd /gapseq/toy
/gapseq/gapseq doall myb71.fna.gz
最初にリファレンスDBのバージョンがチェックされ、最新でない場合は自動でアップデートが行われる。

出力例

myb71-medium.csv

myb71-Transporter.tbl

myb71-all-Pathways.tbl

myb71-all-Reactions.tbl

出力についてはwikiで説明されています。
https://gapseq.readthedocs.io/en/latest/usage/output.html
wikiに2つのチュートリアルが用意されている(データはレポジトリに含まれている)。
- ”腸内細菌Eubacterium rectaleは、嫌気性条件下で酢酸をエネルギー源として利用でき、その時は最終産物として酪酸を形成する(Rivèreら(2015)Appl Envrion Microbiol)。酢酸塩は、ビフィズス菌(例:Bifidobacterium longum)を含む他の多くの異なる腸内細菌における一般的な発酵最終産物である。このチュートリアルでは、E. rectaleとB. longumのゲノムスケールモデルをgapseqを用いて再構築する。その後、2つのモデルの共成長をシミュレーションし、相互作用を調べる。"
- "古細菌は他の生物とは異なる重要な特徴を持っている。メタン生成のような特定のプロセスは古細菌にしか記述されておらず、ヒトの腸内細菌叢の10%以上を古細菌が占めると推定されている(ref.1)。このチュートリアルでは、メタン生成古細菌の復元と解析について説明する。"
引用
pan-Draft: automated reconstruction of species-representative metabolic models from multiple genomes
Nicola De Bernardini, Guido Zampieri, Stefano Campanaro, Johannes Zimmermann, Silvio Waschina & Laura Treu
Genome Biology volume 25, Article number: 280 (2024)
関連