2021 11/29 コマンド修正
プロモーターとは、転写装置が結合して特定の遺伝子の転写を開始するゲノム領域のことである。細菌のプロモーターを同定するための計算機ツールは何十年も前から存在している。しかし、これらのツールのほとんどは、1つまたは少数の細菌種のプロモーターを認識するように設計されていた。ここでは、幅広い細菌種のプロモーターを認識する機械学習ベースの手法であるPromotechを紹介する。プロモテックの性能を、他の5つのプロモーター予測法の性能と比較した。プロモテックは、精度-リコール曲線の下の面積(AUPRC)、または同じレベルのリコールでの精度の点で、これらの他のプログラムよりも優れている。プロモテックは、https://github.com/BioinformaticsLabAtMUN/PromoTechから利用できる。
インストール
git clone https://github.com/BioinformaticsLabAtMUN/Promotech.git
cd Promotech/
#Ubuntu 20.04
mamba env create -f promotech_env.yml
#Mac OS Big Sur V11.3
conda env create -f promotech_mac_env.yml
conda activate promotech_env
> python promotech.py -h
$ python promotech.py -h
usage: promotech.py [-h] [-v] [-G] [-s] [-pg] [-ts TEST_SAMPLES] [-g]
[-f FASTA] [-m {RF-HOT,RF-TETRA,GRU,LSTM}] [-t THRESHOLD]
[-o OUTPUT_DIR] [-i INPUT_DIR] [-b] [-bm {iPromoter2L}]
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
-G, --gui Show interactive GUI.
-s, --predict-sequences
Predict 40 nucleotides FASTA sequence.
-pg, --parse-genome Parse Whole Genome Before Prediction.
-ts TEST_SAMPLES, --test-samples TEST_SAMPLES
Parse a limited number of sequences. This argument is
used together with the -PG, --parse-genome argument.
-g, --predict-genome Predict entire genome in a FASTA sequence. Make sure
to have used
FASTA sequences file.
-m {RF-HOT,RF-TETRA,GRU,LSTM}, --model {RF-HOT,RF-TETRA,GRU,LSTM}
Type of model used. The options are: ["RF-HOT", "RF-
TETRA", "GRU", "LSTM"]
-t THRESHOLD, --threshold THRESHOLD
Prediction threshold.
-o OUTPUT_DIR, --output-dir OUTPUT_DIR
Output folder.
-i INPUT_DIR, --input-dir INPUT_DIR
Input folder.
-b, --benchmark Run Benchmark
-bm {iPromoter2L}, --benchmark-model {iPromoter2L}
Model to use during the benchmark. The options are:
["iPromoter2L"]
テストラン
-sで解析と予測を行い、-fでFASTAファイルを指定する。
python promotech.py -s -m GRU-f examples/sequences/test.fasta -o results
- -f FASTA sequences file.
- -m {RF-HOT,RF-TETRA,GRU,LSTM} Type of model used. The options are: ["RF-HOT", "RF-TETRA", "GRU", "LSTM"]
-
-s Predict 40 nucleotides FASTA sequence.
出力
引用
Promotech: a general tool for bacterial promoter recognition
Ruben Chevez-Guardado & Lourdes Peña-Castillo
Genome Biology volume 22, Article number: 318 (2021)