macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアのプロモーター認識のための一般的なツール Promotech

2021 11/29 コマンド修正

 

 プロモーターとは、転写装置が結合して特定の遺伝子の転写を開始するゲノム領域のことである。細菌のプロモーターを同定するための計算機ツールは何十年も前から存在している。しかし、これらのツールのほとんどは、1つまたは少数の細菌種のプロモーターを認識するように設計されていた。ここでは、幅広い細菌種のプロモーターを認識する機械学習ベースの手法であるPromotechを紹介する。プロモテックの性能を、他の5つのプロモーター予測法の性能と比較した。プロモテックは、精度-リコール曲線の下の面積(AUPRC)、または同じレベルのリコールでの精度の点で、これらの他のプログラムよりも優れている。プロモテックは、https://github.com/BioinformaticsLabAtMUN/PromoTechから利用できる。

 

インストール

Github

git clone https://github.com/BioinformaticsLabAtMUN/Promotech.git
cd Promotech/
#Ubuntu 20.04
mamba env create -f promotech_env.yml
#Mac OS Big Sur V11.3
conda env create -f promotech_mac_env.yml

conda activate promotech_env

> python promotech.py -h

$ python promotech.py -h

usage: promotech.py [-h] [-v] [-G] [-s] [-pg] [-ts TEST_SAMPLES] [-g]

                    [-f FASTA] [-m {RF-HOT,RF-TETRA,GRU,LSTM}] [-t THRESHOLD]

                    [-o OUTPUT_DIR] [-i INPUT_DIR] [-b] [-bm {iPromoter2L}]

 

optional arguments:

  -h, --help            show this help message and exit

  -v, --version         show program's version number and exit

  -G, --gui             Show interactive GUI.

  -s, --predict-sequences

                        Predict 40 nucleotides FASTA sequence.

  -pg, --parse-genome   Parse Whole Genome Before Prediction.

  -ts TEST_SAMPLES, --test-samples TEST_SAMPLES

                        Parse a limited number of sequences. This argument is

                        used together with the -PG, --parse-genome argument.

  -g, --predict-genome  Predict entire genome in a FASTA sequence. Make sure

                        to have used

  -f FASTA, --fasta FASTA

                        FASTA sequences file.

  -m {RF-HOT,RF-TETRA,GRU,LSTM}, --model {RF-HOT,RF-TETRA,GRU,LSTM}

                        Type of model used. The options are: ["RF-HOT", "RF-

                        TETRA", "GRU", "LSTM"]

  -t THRESHOLD, --threshold THRESHOLD

                        Prediction threshold.

  -o OUTPUT_DIR, --output-dir OUTPUT_DIR

                        Output folder.

  -i INPUT_DIR, --input-dir INPUT_DIR

                        Input folder.

  -b, --benchmark       Run Benchmark

  -bm {iPromoter2L}, --benchmark-model {iPromoter2L}

                        Model to use during the benchmark. The options are:

                        ["iPromoter2L"]

 

 

 

テストラン

-sで解析と予測を行い、-fでFASTAファイルを指定する。

python promotech.py -s -m GRU-f examples/sequences/test.fasta -o results
  • -f   FASTA sequences file.
  • -m {RF-HOT,RF-TETRA,GRU,LSTM}  Type of model used. The options are: ["RF-HOT", "RF-TETRA", "GRU", "LSTM"]
  •  -s   Predict 40 nucleotides FASTA sequence. 

出力

f:id:kazumaxneo:20211130035648p:plain



 

 

引用

Promotech: a general tool for bacterial promoter recognition
Ruben Chevez-Guardado & Lourdes Peña-Castillo 
Genome Biology volume 22, Article number: 318 (2021)