macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

シグナルペプチド切断部位を予測する signalP

 

SignalPは、タンパク質のシグナル配列の切断部位を予測するツール。商用の解析ソフトCLCにも導入されている。

web server版とローカル版がある。

 

signalIP4.1 webサーバー 

http://www.cbs.dtu.dk/services/SignalP/

web server版は統合TVを参考にしてください。

© 2016 DBCLS 統合TV / CC-BY-4.0

 

 

簡単なマニュアル

http://www.cbs.dtu.dk/services/SignalP/instructions.php

詳しいマニュアル

http://www.cbs.dtu.dk/cgi-bin/nph-runsafe?man=signalp

 

 

 

インストール

こちらからダウンロードできる。

http://www.cbs.dtu.dk/cgi-bin/nph-sw_request?signalp

macならDarwinを選択してダウンロード。

 

本体はsignalpである。バイナリのように見えるが、perlスクリプトなのでテキストエディタでそのまま開ける。モジュールやデータベースを読み込むパスを環境に合わせて修正する。signalpをエディタで開き、

$ENV{SIGNALP} = '/usr/cbs/bio/src/signalp-4.1'; #元はこうなってる。

 ↓

$ENV{SIGNALP} = '/Users/user/local/signalp-4.1'; #signalipの場所に変更。私はこうなる。

保存してパスを通す。準備はこれだけである。

 

エラーが出る場合

perl - SignalP Error message: Can't locate FASTA.pm in @INC - Stack Overflow

 

 

ラン

signalp -c 70 -f short -M 10 -s best peptide.faa > short.txt
  • -c  "cut": truncate the input sequences to the specified length from the N-terminal. The default is 70 residues. The value of "0" disables truncation.
  •  -f  "format": produce output in the specified format. The valid for- mats are:
  1. short Write only one line of concluding scores per sequence. Intended for analysis of large datasets where machine- readable output is required. This is the default format.
  2. long Write the scores for each position in each sequnce.
  3. all  Write predictions for both Signalp-TM and SignalP-noTM networks. Five columns with cleavage site (CS) and Signal Peptide (SP) predictions for both SigP-noTM and SigP-TM methods and TM prediction for each position.
  4. summary Write only the concluding scores for each sequence. This is essentially the same information as the 'short' for- mat.
  • -M  "minimal": set the minimal predicted signal peptide length to length. The default is 10.
  • -s Use the specified method. The valid methods are:
  1. best (default) The method decides which neural networks predictions give the best result choosing predictions from either SignalP- TM or SignalP-noTM networks. For 'gram+' organisms it is always SignalP-TM networks.
  2. notm  The SignalP-noTM neural networks are specifically chosen.

summary format

user$ head -7 summary.txt 

# SignalP-4.1 euk predictions

# Measure  Position  Value    Cutoff   signal peptide?

  max. C    30       0.134

  max. Y    14       0.126

  max. S     6       0.244

  mean S     1-13    0.160

       D     1-13    0.145   0.450   NO

 

max.~というのが切断予測箇所である。 

 

short format (1行1タンパク質のタブ区切り)

user$ head -5 short.txt 

# SignalP-4.1 euk predictions

# name                     Cmax  pos  Ymax  pos  Smax  pos  Smean   D     ?  Dmaxcut    Networks-used

AT3G05780.1                0.134  30  0.126  14  0.244   6  0.160   0.145 N  0.450      SignalP-noTM

AT1G24405.1                0.107  55  0.116  37  0.157  23  0.116   0.116 N  0.450      SignalP-noTM

AT2G27490.4                0.443  32  0.235  32  0.211  30  0.126   0.176 N  0.450      SignalP-noTM

 

long format アミノ酸部位(-cで決めた部位まで)

user$ head -10 long.txt 

# SignalP-4.1 euk predictions

# Name=AT3G05780.1 Length=70 Networks=SignalP-noTM

# pos  aa    C       S       Y

    1   M   0.100   0.144   0.120

    2   M   0.102   0.131   0.122

    3   P   0.102   0.137   0.121

    4   K   0.102   0.194   0.121

    5   R   0.102   0.156   0.122

    6   F   0.103   0.244   0.123

    7   N   0.101   0.216   0.123

 

シグナルペプチドが見つかった配列のみ出力される。 "summary"より"short"の方が視認性は高い。 

 

出力される内容については公式マニュアルのoutputを参照してください。 

http://www.cbs.dtu.dk/services/SignalP/output.php

 

 

引用

SignalP 4.0: discriminating signal peptides from transmembrane regions.

Thomas Nordahl Petersen, Søren Brunak, Gunnar von Heijne & Henrik Nielsen

Nat Methods. 2011 Sep 29;8(10):785-6.

 

signalPでタンパク質のシグナル配列を予測する 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル

DOI: 10.7875/togotv.2011.085

© 2016 DBCLS 統合TV / CC-BY-4.0