macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ディープニューラルネットワークベースのシグナルペプチド予測ツール SignalP 5.0

 

 シグナルペプチド(SP)は、新しく合成された多くのタンパク質のアミノ末端にある短いアミノ酸配列で、タンパク質を膜内に、あるいは膜を越えて標的とするものである。バイオインフォマティクスツールはアミノ酸配列からSPを予測することができるが、ほとんどのツールでは様々なタイプのシグナルペプチドを区別することができない。ここでは、生命のすべてのドメインにわたってSPの予測を改善し、原核生物のSPの3つのタイプを区別するディープニューラルネットワークベースのアプローチを提示する。

 

help

http://www.cbs.dtu.dk/services/SignalP-5.0/instructions.php

 

webサービス(オンライン)

http://www.cbs.dtu.dk/services/SignalP-5.0/index.php

f:id:kazumaxneo:20201219000604p:plain

 

 

ローカルマシンへのインストール(オフライン)

Services - DTU Health Tech

LinuxDarwin版がダウンロードできる。ダウンロードには、上のリンクから所属組織のメールアドレスを記載してサブミットする。ダウンロードリンクがメールで届く。

tar -xvzf signalp-5.0b.tar.gz
cd signalp-5.0b/bin/

>./signalp

$ ./signalp 

  -batch int

    Number of sequences that the tool will run simultaneously. Decrease or increase size depending on your system memory. (default 10000)

  -fasta string

    Input file in fasta format.

  -format string

    Output format. 'long' for generating the predictions with plots, 'short' for the predictions without plots. (default "short")

  -gff3

    Make gff3 file of processed sequences.

  -mature

    Make fasta file with mature sequence.

  -org string

    Organism. Archaea: 'arch', Gram-positive: 'gram+', Gram-negative: 'gram-' or Eukarya: 'euk' (default "euk")

  -plot string

    Plots output format. When long output selected, choose between 'png', 'eps' or 'none' to get just a tabular file. (default "png")

  -prefix string

    Output files prefix. (default "Input file prefix")

  -stdout

    Write the prediction summary to the STDOUT.

  -tmp string

    Specify temporary file directory. (default "System default tmpdir")

  -verbose

    Verbose output. Specify '-verbose=false' to avoid printing. (default true)

  -version

    Prints version.

No input file provided.

パスを通しておく。

 

テストラン

10個のタンパク質配列((test/euk10.fsa)のシグナルペプチドを予測する。

cd signalp-5.0b/
bin/signalp -fasta test/euk10.fsa -org euk -format short -prefix euk_10_short
  • -org <string>  Organism. Archaea: 'arch', Gram-positive: 'gram+', Gram-negative: 'gram-' or Eukarya: 'euk' (default "euk")

出力

f:id:kazumaxneo:20201218234435p:plain

 

"-format long"をつけてランすると、ポジションごとのスコアのテキストと画像ファイルがタンパク質配列ごとに出力される。

cd signalp-5.0b/
bin/signalp -fasta test/euk10.fsa -org euk -format long -prefix euk_10_short
  •  -format <string>   Output format. 'long' for generating the predictions with plots, 'short' for the predictions without plots. (default "short")

f:id:kazumaxneo:20201218234836p:plain

シグナルペプチドが予測される場合は、シグナルペプチド(Sec/SPI) / LIPO(Sec/SPII) / TAT(Tat/SPI)の3つの確率を赤線で表す。開裂部位(CS)の位置は緑の破線で報告される。黄色線のOTHERは、配列がいかなる種類のシグナルペプチドを持たない確率を表す。

 

 

GFF3形式のシグナルペプチドのアノテーションも出力する。

bin/signalp -fasta input.fsa -org euk -format short -prefix out -gff3
  • -gff3   Make gff3 file of processed sequences.

 

シグナルペプチド切断後のタンパク質配列も出力する。

bin/signalp -fasta input.fsa -org euk -format short -prefix out -mature
  • -mature   Make fasta file with mature sequence.

 

追記

以下の論文でSignalPが面白い使われ方をしています。ゲノムやタンパク質情報から表現型を予測するためのアプローチとして興味深いです。


引用

SignalP 5.0 improves signal peptide predictions using deep neural networks

José Juan Almagro Armenteros, Konstantinos D Tsirigos, Casper Kaae Sønderby, Thomas Nordahl Petersen, Ole Winther, Søren Brunak, Gunnar von Heijne, Henrik Nielsen

Nat Biotechnol. 2019 Apr;37(4):420-423