macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

細菌の非リボソームペプチドの生合成遺伝子クラスターを発見する Nerpa

 

 微生物由来の天然物は、創薬のための生物活性化合物の主要な供給源である。その中でも、非リボソームペプチド(f)は、抗生物質免疫抑制剤抗がん剤を含む多様な天然物のクラスである。近年の天然物探索の進歩により、数千種類のNRPの化学構造が明らかにされている。しかし、それらをコードする生合成遺伝子クラスター(BGC)は数百化合物しか知られていない。そこで本著者らは、既知のNRPを生産する新規BGCをハイスループットに発見するための計算手法Nerpaを開発した。RefSeqリポジトリから13,399の代表的な細菌ゲノムを8368の既知のNRPと検索した結果、Nerpaは117のBGCとその生成物を結びつけた。さらに、Photobacterium galatheae由来のngercheumicinの予測されたBGCを質量分析により実験的に検証した。Nerpaは、数千の既知のNRP構造に対する新しいゲノムの検索や、数万の細菌ゲノムに対する新規分子構造の検索をサポートしている。これらのツールを利用することで、NRPの合成とその生合成酵素の機能についての理解を深めることができる。

 

HP

http://cab.spbu.ru/software/nerpa/

Nerpaは、生合成遺伝子クラスター(BGC)と既知の非リボソームペプチド(NRP)を結びつけるためのツール。

 

 

インストール

condaで環境を作ってテストした。

依存

Before compiling Nerpa from the source code, please satisfy the following requirements:

  • 64-bit Linux system or macOS
  • g++ v.5.2+ or clang v.3.2+
  • cmake v.3.5+

For running Nerpa you would also need:

  • Python v.3.6+
  • Python libraries RDKit and networkx
  • java (for running rBAN, i.e., only needed if you specify NRPs in the SMILES format)

本体 Github

#conda (link)
mamba create -n nerpa python=3.10 -y
conda activate nerpa
mamba install -c conda-forge -c bioconda nerpa

> nerpa.py -h

$ nerpa.py -h

usage: nerpa.py [-h] [--antismash_output_list ANTISMASH_OUT] [--antismash ANTISMASH] [--sequences SEQS] [--rban-json RBAN_OUTPUT | --smiles [SMILES ...] | --smiles-tsv SMILES_TSV] [--col-smiles COL_SMILES] [--col-id COL_ID] [--sep SEP]

                [--predictions PREDICTIONS] [--structures STRUCTURES] [--configs_dir CONFIGS_DIR] [--force-existing-outdir] [--rban-monomers-db RBAN_MONOMERS] [--process-hybrids] [--antismash-path ANTISMASH_PATH] [--threads THREADS]

                [--output_dir OUTPUT_DIR]

 

optional arguments:

  -h, --help            show this help message and exit

  --rban-monomers-db RBAN_MONOMERS

                        file with custom monomers in rBAN compatible format

  --process-hybrids     process NRP-PK hybrid monomers (requires use of rBAN)

  --antismash-path ANTISMASH_PATH

                        path to antismash source directory

  --threads THREADS     number of threads for running Nerpa

  --output_dir OUTPUT_DIR, -o OUTPUT_DIR

                        output dir [default: nerpa_results/results_<datetime>]

 

Genomic input:

  Genomes of NRP-producing organisms (i.e. BGC predictions)

 

  --antismash_output_list ANTISMASH_OUT

                        file with list of paths to antiSMASH output directories

  --antismash ANTISMASH, -a ANTISMASH

                        single antiSMASH output directory or directory with many antiSMASH outputs

  --sequences SEQS      GenBank/EMBL/FASTA file containing DNA sequences

 

Chemical input:

  Structures of NRP molecules

 

  --rban-json RBAN_OUTPUT

                        json file with rBAN-preprocessed NRP structures

  --smiles [SMILES ...]

                        string (or several strings) with structures in the SMILES format

  --smiles-tsv SMILES_TSV

                        multi-column file containing structures in the SMILES format

  --col-smiles COL_SMILES

                        column name in smiles-tsv for structures in the SMILES format [default: 'SMILES']

  --col-id COL_ID       column name in smiles-tsv for structure identifier (if not provided, row index will be used)

  --sep SEP             column separator in smiles-tsv

 

Advanced input:

  Preprocessed BGC predictions and NRP structures in custom Nerpa-compliant formats

 

  --predictions PREDICTIONS, -p PREDICTIONS

                        file with paths to preprocessed BGC prediction files

  --structures STRUCTURES, -s STRUCTURES

                        file with Nerpa-preprocessed NRP structures

  --configs_dir CONFIGS_DIR

                        custom directory with adjusted Nerpa configs

  --force-existing-outdir

                        don't crash if the output dir already exists

 

 

テストラン

antiSMASHのJSON形式出力(ゲノム配列をantiSMASHウェブサーバで解析してダウンロードしたもの)を使用する事が推奨されているが。FASTAファイルやGenBank形式のゲノム配列も利用できる(antiSMASHにパスが通っている必要がある)。

wget https://github.com/ablab/nerpa/releases/download/v1.0.0/test_data.tar.gz
tar xzf test_data.tar.gz
nerpa.py -a test_data/NCBI_subset/genome_predictions/ --structures test_data/NCBI_subset/structure.info.monomers

antiSMASHウェブサーバで解析。Download all resultsからダウンロードし、解凍したディレクトリへのパス、またはその中のメインのJSONファイルだけを-aオプションでNerpaに提供することができる(マニュアルより)。

 

出力

nerpa_results/latest/

reports.csvにはマッチしたNRP-BGCペアとスコアが含まれている。details/には、各マッチの詳細な説明と正確なアラインメントを含まれている(マニュアルより)。

 

引用
Nerpa: A Tool for Discovering Biosynthetic Gene Clusters of Bacterial Nonribosomal Peptides
Olga Kunyavskaya, Azat M Tagirdzhanov, Andrés Mauricio Caraballo-Rodríguez, Louis-Félix Nothias, Pieter C Dorrestein, Anton Korobeynikov, Hosein Mohimani 6, Alexey Gurevich

Metabolites. 2021 Oct 11;11(10):693

 

関連