macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

TMHMMで膜貫通領域を予測する

 

TMHMMは膜貫通領域を予測するツール。膜タンパク質であるかどうかの判定にも用いられる。

 

webサーバー版

http://www.cbs.dtu.dk/services/TMHMM/

マニュアル

解凍したディレクトリにユーザーガイド(TMHMM2.0.html)あり。

TMHMM2.0

 

 

インストー

依存

その他、グラフィックの描画には追加でgnuplotなどをインストールする必要がある。ここでは説明しない。

 

 

tmhmm-2.0cの/bin/tmhmmとbin/tmhmmformat.plの1行目にあるperlのパスを修正する。まずperlの場所を確認する。

which perl 

/usr/bin/perlだったので、1行目をそのように修正。

 

次に/bin/decodeanhmm.Linux_x86_64をbinなどにコピーし、decodeanhmmという名前でシンボリックリンクを作る。

sudo cp bin/decodeanhmm.Linux_x86_64 /usr/local/bin/
sudo in -s /usr/local/bin/decodeanhmm.Linux_x86_64  /usr/local/bin/decodeanhmm #シンボリックリンクをtmhmmが認識できるワードで作成

パスはコマンドの場所に応じて変えてください。

 

マニュアルにあるようにmodelのパスを明示してランすると動いたが、tmhmmを指定してランするとTMHMM2.0のモデル(tmhmm-2.0c/lib/TMHMM2.0.model)を読み込めなかった。

そこでbin/tmhmmの40-42行目のモデルのパスも以下のように修正した。

$opt_scrdir = "/home/uesaka/tmhmm-2.0c/bin" if (!defined($opt_scrdir));

$opt_bindir = "/home/uesaka/tmhmm-2.0c/bin" if (!defined($opt_bindir));

$opt_libdir = "/home/uesaka/tmhmm-2.0c/lib" if (!defined($opt_libdir));

これで動いた。あとはtmhmmにパスを通しておく。decodeanhmmと同じようにシンボリックリンクを貼ってもいい。

 

パスはコマンドの場所に応じて変えてください。

 

 

ラン

 入力はマルチファスタに対応している。long出力。

tmhmm input.faa > output.txt

short 出力

tmhmm -short input.faa > output.txt

 

出力はlongとshortの2種類選べる。デフォルトのlongの出力は以下のようになる。

 

1、膜タンパク質と予測されなかった配列。

# IPI00000001.2 Length: 577

# IPI00000001.2 Number of predicted TMHs:  0

# IPI00000001.2 Exp number of AAs in TMHs: 0.0214

# IPI00000001.2 Exp number, first 60 AAs:  0.00037

# IPI00000001.2 Total prob of N-in:        0.00383

IPI00000001.2 TMHMM2.0 outside     1   577

最後の行がまとめである。ここが1行でoutsizeかinsideと出ていれば、膜貫通タンパク質ではない。

2、膜タンパク質と予測された配列。

# IPI00000012.4 Length: 496

# IPI00000012.4 Number of predicted TMHs:  6

# IPI00000012.4 Exp number of AAs in TMHs: 129.52753

# IPI00000012.4 Exp number, first 60 AAs:  39.60649

# IPI00000012.4 Total prob of N-in:        0.99612

# IPI00000012.4 POSSIBLE N-term signal sequence

IPI00000012.4 TMHMM2.0 inside     1    11

IPI00000012.4 TMHMM2.0 TMhelix     12    31

IPI00000012.4 TMHMM2.0 outside     32    40

IPI00000012.4 TMHMM2.0 TMhelix     41    60

IPI00000012.4 TMHMM2.0 inside     61    79

IPI00000012.4 TMHMM2.0 TMhelix     80   102

IPI00000012.4 TMHMM2.0 outside   103   114

IPI00000012.4 TMHMM2.0 TMhelix   115   134

IPI00000012.4 TMHMM2.0 inside   135   239

IPI00000012.4 TMHMM2.0 TMhelix   240   262

IPI00000012.4 TMHMM2.0 outside   263   276

IPI00000012.4 TMHMM2.0 TMhelix   277   299

IPI00000012.4 TMHMM2.0 inside   300   496

コメント行の下にあるIP~の行が膜貫通領域の予測結果。膜の内側か、外側か、膜の内部か予測されている。ただしあくまで予想である。

 

出力されているのは以下のような情報になる。

 

  • Length: the length of the protein sequence.
  • Number of predicted TMHs: The number of predicted transmembrane helices.
  • Exp number of AAs in TMHs: The expected number of amino acids intransmembrane helices. If this number is larger than 18 it is very likely to be a transmembrane protein (OR have a signal peptide).
  • Exp number, first 60 AAs: The expected number of amino acids in transmembrane helices in the first 60 amino acids of the protein. If this number more than a few, you should be warned that a predicted transmembrane helix in the N-term could be a signal peptide.
  • Total prob of N-in: The total probability that the N-term is on the cytoplasmic side of the membrane.
  • POSSIBLE N-term signal sequence: a warning that is produced when "Exp number, first 60 AAs" is larger than 10.

 

公式マニュアルより。

 

 

shortだと1行1クエリで出力される。

f:id:kazumaxneo:20170731143704j:plain

4行目のPredHel=6だと6回膜貫通を意味する。

 

 

 

 

引用

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes.

Krogh A1, Larsson B, von Heijne G, Sonnhammer EL.

 J Mol Biol. 2001 Jan 19;305(3):567-80. 

 

VCRU Bioinformatics - Install notes

 

DOI: 10.7875/togotv.2009.084

© 2016 DBCLS 統合TV / CC-BY-4.0