macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

腸内嫌気性細菌の代謝遺伝子クラスターを調べる gutSMASH

 2021 5/26  論文引用

 

 腸内細菌叢は何百もの小分子を産生し、その多くは宿主の生理機能を調節している。二次代謝産物の生合成遺伝子を同定する試みがなされているが、腸内細菌叢の化学的プロダクトは主に一次代謝産物で構成されている。本研究では、腸内細菌の一次代謝遺伝子を系統的にプロファイリングし、4,240個の高品質な微生物ゲノムから19,885個の遺伝子クラスターを同定した。その結果、エネルギー獲得のための戦略の違いを反映して、系統間でパスウェイの分布に顕著な違いが見られた。これらのデータは、短鎖脂肪酸生産の分類学上の違いを説明し、各分類群に特徴的な代謝ニッチがあることを示唆している。オランダの人口ベースのコホートから得られた1,135人の被験者を分析した結果、血漿中の14種類の微生物由来の代謝物のレベルは、対応する生合成遺伝子のメタゲノム上の存在量とほとんど相関しないことがわかり、経路特異的な遺伝子制御と代謝物のフラックスが重要な役割を果たしていることが明らかになった。この研究は、細菌の分類によるマイクロバイオームの化学的性質の違いを理解するための出発点となるものである。

 

Githubより

gutSMASHは、既知および推定の代謝遺伝子クラスター(MGC)を予測することで、嫌気性細菌の代謝能力を体系的に評価することができるアルゴリズムである。このツールは、微生物と微生物、宿主と微生物の相互作用に関連する、特殊な一次代謝に関与するMGCを腸内細菌叢から発見するために特別に設計されている。さらに、gutSMASHは、細菌がエネルギーを収穫するために採用するメカニズムを評価するために、エネルギー捕捉に関連するMGCも予測する。これらのMGCを検出するために、gutSMASHは特定の反応を定義するPfamの組み合わせであるantiSMASHのような検出ルールを使用している。gutSMASHの使用方法の詳細については、オンラインドキュメント(https://gutsmash.bioinformatics.nl/help.html)を参照してください。

 

Documentation (検出対象のPathwayとその引用も載っている)

gutSMASH documentation — gutsmash.docs 0.0.1 documentation

 

 

インストール

ubuntu18.04にてmambaで環境を作ってテストした。

Github

mamba create -n gutSMASH python=3.6 -y
conda activate gutSMASH

#依存の導入
pip3 install bcbio-gff pysvg-py3 scikit-learn matplotlib pyScss Jinja2

mamba install -c bioconda -y glimmerhmm
mamba install -c bioconda -y muscle
mamba install -c bioconda -y blast
mamba install -c bioconda -y prodigal
mamba install -c bioconda -y fasttree
mamba install -c bioconda -y diamond
mamba install -c bioconda -y hmmer
mamba install -c bioconda -y hmmer2
mamba install -c bioconda -y helperlibs
mamba install -c bioconda -y biopython=1.68

git clone https://github.com/victoriapascal/gutsmash.git

> python3 gutsmash/run_gutsmash.py

########### gutSMASH 1.0.0-32bee55 #############

 

usage: run_gutsmash.py [-h] [options ..] sequence

 

 

arguments:

SEQUENCE GenBank/EMBL/FASTA file(s) containing DNA.

 

--------

Options

--------

-h, --help Show this help text.

--help-showall Show full lists of arguments on this help text.

-c CPUS, --cpus CPUS How many CPUs to use in parallel. (default: 128)

 

Basic analysis options:

 

--taxon {bacteria,fungi}

Taxonomic classification of input sequence. (default:

bacteria)

 

Additional analysis:

 

--fullhmmer Run a whole-genome HMMer analysis.

--cassis Motif based prediction of SM gene cluster regions.

--cf-borders-only Only annotate borders of existing clusters.

--cf-create-clusters Find extra clusters.

--clusterhmmer Run a cluster-limited HMMer analysis.

--smcog-trees Generate phylogenetic trees of sec. met. cluster

orthologous groups.

--tta-threshold TTA_THRESHOLD

Lowest GC content to annotate TTA codons at (default:

0.65).

--cb-general Compare identified clusters against a database of

antiSMASH-predicted clusters.

--cb-knownclusters Compare identified clusters against known gene

clusters from the MIBiG database.

--asf Run active site finder analysis.

--pfam2go Run Pfam to Gene Ontology mapping module.

 

Output options:

 

--output-dir OUTPUT_DIR

Directory to write results to.

--html-title HTML_TITLE

Custom title for the HTML output page (default is

input filename).

--html-description HTML_DESCRIPTION

Custom description to add to the output.

 

Gene finding options (ignored when ORFs are annotated):

 

--genefinding-tool {glimmerhmm,prodigal,prodigal-m,none,error}

Specify algorithm used for gene finding: GlimmerHMM,

Prodigal, Prodigal Metagenomic/Anonymous mode, or

none. The 'error' option will raise an error if

genefinding is attempted. The 'none' option will not

run genefinding. (default: error).

--genefinding-gff3 GFF3_FILE

Specify GFF3 file to extract features from.

 

 

実行方法

gutSMASHのランにはGenbank形式またはEMBL形式のアノテーションされたヌクレオチドファイルが必要(for example ".fasta", ".fa", ".gb", ".gbff", ".gbk", or ".embl")。最もシンプルな解析(MGCの検出のみ)を行うには、--minimal フラグだけ指定する。

genbankファイルを指定する。

python3 gutsmash/run_gutsmash.py --minimal input.gbk

 

出力例

f:id:kazumaxneo:20210311091529p:plain

遺伝子クラスターは、それぞれのMGCが合成する分子の種類に応じて色分けされている。

 

f:id:kazumaxneo:20210311091545p:plain

Annotation of functional gene categories が有効になっている場合、遺伝子のボックスはパスウェイにおける機能に基づいて色分けされている。遺伝子をクリックすると、その遺伝子のアノテーションクラスタ内の他の遺伝子との配列の類似性、位置、その遺伝子に特有のクロスリンクなどの詳細情報が表示される。クエスチョンマークはヘルプページにリンクしている。感嘆符のボタンは、gutSMASHについての説明のページに繋がっている。下向きの矢印は、gutSMASHの実行結果の全セットをダウンロードするためのメニューになっている。ダンロードしたEMBL/GenBankファイルはArtemisのようなゲノムブラウザで見ることができる。

 

  • --cb-knownclustersフラグを用いて、予測された遺伝子クラスターを既知の特徴的な遺伝子クラスターのデータベースと比較する。このオプションは指定することが推奨されている。
  • gutsSMASHはFASTAファイルを入力として使用することもできる。その場合、--genefinding-toolオプションを使ってゲノムにアノテーションするための遺伝子予測ツール、例えばProdigal、を選択する。
  • Gene Cluster Comparative Analysis (ClusterBlast)を有効にすると、遺伝子クラスタのページに、3つの異なるバクテリアリファレンスコレクションで事前に計算されたgutSMASHランから最も類似したMGCのトップ10が表示される。ドロップダウン式の選択メニューを使って、遺伝子クラスターを参照することができる。

 

引用

A systematic analysis of metabolic pathways in the human gut microbiota
Victòria Pascal Andreu, Hannah E. Augustijn, Lianmin Chen, Alexandra Zhernakova,Jingyuan Fu, Michael A. Fischbach, Dylan Dodd, Marnix H. Medema

bioRxiv, Posted February 26, 2021

 

2021 5/26

The gutSMASH web server: automated identification of primary metabolic gene clusters from the gut microbiota
Victòria Pascal Andreu, Jorge Roel-Touris, Dylan Dodd, Michael A Fischbach, Marnix H Medema
Nucleic Acids Research, Published: 21 May 2021

 

関連