微生物由来の天然物は、創薬のための生物活性化合物の主要な供給源である。その中でも、非リボソームペプチド(f)は、抗生物質、免疫抑制剤、抗がん剤を含む多様な天然物のクラスである。近年の天然物探索の進歩により、数千種類のNRPの化学構造が明らかにされている。しかし、それらをコードする生合成遺伝子クラスター(BGC)は数百化合物しか知られていない。そこで本著者らは、既知のNRPを生産する新規BGCをハイスループットに発見するための計算手法Nerpaを開発した。RefSeqリポジトリから13,399の代表的な細菌ゲノムを8368の既知のNRPと検索した結果、Nerpaは117のBGCとその生成物を結びつけた。さらに、Photobacterium galatheae由来のngercheumicinの予測されたBGCを質量分析により実験的に検証した。Nerpaは、数千の既知のNRP構造に対する新しいゲノムの検索や、数万の細菌ゲノムに対する新規分子構造の検索をサポートしている。これらのツールを利用することで、NRPの合成とその生合成酵素の機能についての理解を深めることができる。
HP
http://cab.spbu.ru/software/nerpa/
Nerpaは、生合成遺伝子クラスター(BGC)と既知の非リボソームペプチド(NRP)を結びつけるためのツール。
インストール
condaで環境を作ってテストした。
依存
Before compiling Nerpa from the source code, please satisfy the following requirements:
For running Nerpa you would also need:
- Python v.3.6+
- Python libraries RDKit and networkx
- java (for running rBAN, i.e., only needed if you specify NRPs in the SMILES format)
本体 Github
#conda (link)
mamba create -n nerpa python=3.10 -y
conda activate nerpa
mamba install -c conda-forge -c bioconda nerpa
> nerpa.py -h
$ nerpa.py -h
usage: nerpa.py [-h] [--antismash_output_list ANTISMASH_OUT] [--antismash ANTISMASH] [--sequences SEQS] [--rban-json RBAN_OUTPUT | --smiles [SMILES ...] | --smiles-tsv SMILES_TSV] [--col-smiles COL_SMILES] [--col-id COL_ID] [--sep SEP]
[--predictions PREDICTIONS] [--structures STRUCTURES] [--configs_dir CONFIGS_DIR] [--force-existing-outdir] [--rban-monomers-db RBAN_MONOMERS] [--process-hybrids] [--antismash-path ANTISMASH_PATH] [--threads THREADS]
[--output_dir OUTPUT_DIR]
optional arguments:
-h, --help show this help message and exit
--rban-monomers-db RBAN_MONOMERS
file with custom monomers in rBAN compatible format
--process-hybrids process NRP-PK hybrid monomers (requires use of rBAN)
--antismash-path ANTISMASH_PATH
path to antismash source directory
--threads THREADS number of threads for running Nerpa
--output_dir OUTPUT_DIR, -o OUTPUT_DIR
output dir [default: nerpa_results/results_<datetime>]
Genomic input:
Genomes of NRP-producing organisms (i.e. BGC predictions)
--antismash_output_list ANTISMASH_OUT
file with list of paths to antiSMASH output directories
--antismash ANTISMASH, -a ANTISMASH
single antiSMASH output directory or directory with many antiSMASH outputs
--sequences SEQS GenBank/EMBL/FASTA file containing DNA sequences
Chemical input:
Structures of NRP molecules
--rban-json RBAN_OUTPUT
json file with rBAN-preprocessed NRP structures
--smiles [SMILES ...]
string (or several strings) with structures in the SMILES format
--smiles-tsv SMILES_TSV
multi-column file containing structures in the SMILES format
--col-smiles COL_SMILES
column name in smiles-tsv for structures in the SMILES format [default: 'SMILES']
--col-id COL_ID column name in smiles-tsv for structure identifier (if not provided, row index will be used)
--sep SEP column separator in smiles-tsv
Advanced input:
Preprocessed BGC predictions and NRP structures in custom Nerpa-compliant formats
--predictions PREDICTIONS, -p PREDICTIONS
file with paths to preprocessed BGC prediction files
--structures STRUCTURES, -s STRUCTURES
file with Nerpa-preprocessed NRP structures
--configs_dir CONFIGS_DIR
custom directory with adjusted Nerpa configs
--force-existing-outdir
don't crash if the output dir already exists
テストラン
antiSMASHのJSON形式出力(ゲノム配列をantiSMASHウェブサーバで解析してダウンロードしたもの)を使用する事が推奨されているが。FASTAファイルやGenBank形式のゲノム配列も利用できる(antiSMASHにパスが通っている必要がある)。
wget https://github.com/ablab/nerpa/releases/download/v1.0.0/test_data.tar.gz
tar xzf test_data.tar.gz
nerpa.py -a test_data/NCBI_subset/genome_predictions/ --structures test_data/NCBI_subset/structure.info.monomers
antiSMASHウェブサーバで解析。Download all resultsからダウンロードし、解凍したディレクトリへのパス、またはその中のメインのJSONファイルだけを-aオプションでNerpaに提供することができる(マニュアルより)。
出力
nerpa_results/latest/
reports.csvにはマッチしたNRP-BGCペアとスコアが含まれている。details/には、各マッチの詳細な説明と正確なアラインメントを含まれている(マニュアルより)。
引用
Nerpa: A Tool for Discovering Biosynthetic Gene Clusters of Bacterial Nonribosomal Peptides
Olga Kunyavskaya, Azat M Tagirdzhanov, Andrés Mauricio Caraballo-Rodríguez, Louis-Félix Nothias, Pieter C Dorrestein, Anton Korobeynikov, Hosein Mohimani 6, Alexey Gurevich
Metabolites. 2021 Oct 11;11(10):693
関連