2022/1/5 URL修正
シグナルペプチド(SP)は、新しく合成された多くのタンパク質のアミノ末端にある短いアミノ酸配列で、タンパク質を膜内に、あるいは膜を越えて標的とするものである。バイオインフォマティクスツールはアミノ酸配列からSPを予測することができるが、ほとんどのツールでは様々なタイプのシグナルペプチドを区別することができない。ここでは、生命のすべてのドメインにわたってSPの予測を改善し、原核生物のSPの3つのタイプを区別するディープニューラルネットワークベースのアプローチを提示する。
help
http://www.cbs.dtu.dk/services/SignalP-5.0/instructions.php
webサービス(オンライン)
https://services.healthtech.dtu.dk/service.php?SignalP-5.0
ローカルマシンへのインストール(オフライン)
LinuxとDarwin版がダウンロードできる。ダウンロードには、上のリンクから所属組織のメールアドレスを記載してサブミットする。ダウンロードリンクがメールで届く。
tar -xvzf signalp-5.0b.tar.gz
cd signalp-5.0b/bin/
>./signalp
$ ./signalp
-batch int
Number of sequences that the tool will run simultaneously. Decrease or increase size depending on your system memory. (default 10000)
-fasta string
Input file in fasta format.
-format string
Output format. 'long' for generating the predictions with plots, 'short' for the predictions without plots. (default "short")
-gff3
Make gff3 file of processed sequences.
-mature
Make fasta file with mature sequence.
-org string
Organism. Archaea: 'arch', Gram-positive: 'gram+', Gram-negative: 'gram-' or Eukarya: 'euk' (default "euk")
-plot string
Plots output format. When long output selected, choose between 'png', 'eps' or 'none' to get just a tabular file. (default "png")
-prefix string
Output files prefix. (default "Input file prefix")
-stdout
Write the prediction summary to the STDOUT.
-tmp string
Specify temporary file directory. (default "System default tmpdir")
-verbose
Verbose output. Specify '-verbose=false' to avoid printing. (default true)
-version
Prints version.
No input file provided.
パスを通しておく。
テストラン
10個のタンパク質配列((test/euk10.fsa)のシグナルペプチドを予測する。
cd signalp-5.0b/
bin/signalp -fasta test/euk10.fsa -org euk -format short -prefix euk_10_short
- -org <string> Organism. Archaea: 'arch', Gram-positive: 'gram+', Gram-negative: 'gram-' or Eukarya: 'euk' (default "euk")
出力
"-format long"をつけてランすると、ポジションごとのスコアのテキストと画像ファイルがタンパク質配列ごとに出力される。
cd signalp-5.0b/
bin/signalp -fasta test/euk10.fsa -org euk -format long -prefix euk_10_short
- -format <string> Output format. 'long' for generating the predictions with plots, 'short' for the predictions without plots. (default "short")
シグナルペプチドが予測される場合は、シグナルペプチド(Sec/SPI) / LIPO(Sec/SPII) / TAT(Tat/SPI)の3つの確率を赤線で表す。開裂部位(CS)の位置は緑の破線で報告される。黄色線のOTHERは、配列がいかなる種類のシグナルペプチドを持たない確率を表す。
GFF3形式のシグナルペプチドのアノテーションも出力する。
bin/signalp -fasta input.fsa -org euk -format short -prefix out -gff3
- -gff3 Make gff3 file of processed sequences.
シグナルペプチド切断後のタンパク質配列も出力する。
bin/signalp -fasta input.fsa -org euk -format short -prefix out -mature
- -mature Make fasta file with mature sequence.
追記
以下の論文でSignalPが面白い使われ方をしています。ゲノムやタンパク質情報から表現型を予測するためのアプローチとして興味深いです。
引用
SignalP 5.0 improves signal peptide predictions using deep neural networks
José Juan Almagro Armenteros, Konstantinos D Tsirigos, Casper Kaae Sønderby, Thomas Nordahl Petersen, Ole Winther, Søren Brunak, Gunnar von Heijne, Henrik Nielsen
Nat Biotechnol. 2019 Apr;37(4):420-423