macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

HMMERでタンパク質ドメインを検索する

 

HMMERはタンパク質のドメイン検索に使われるツール。Pfamなどのタンパク質ドメインのデータベースを使い、ドメインの検索を行ってアノテーションをつけることができる。ここではhmmscanを試す。

 

webサーバー

 

https://www.ebi.ac.uk/Tools/hmmer/

 

マニュアル

http://eddylab.org/software/hmmer3/3.1b2/Userguide.pdf

 

hmmerブログ

https://cryptogenomicon.org/category/hmmer/

 

 

インストー

brewで導入できる。

brew install hmmer

 

ダウンロードリンク

HMMER

 

 

ラン

 

準備;タンパク質ドメインのデータベースを用意する必要がある。ここでは有名なPfamのデータベースを使う。公式ページを見ると、2017年7月の時点ではpfam31.0が最新のデータであることが確認できる。FTPサイトを開いてみる。

 

ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam31.0/

f:id:kazumaxneo:20170731100954j:plain

Pfam.version.gzをダウンロードして開く。

user$ gzcat Pfam.version.gz 

Pfam release       : 31.0

Pfam-A families    : 16712

Date               : 2017-02

Based on UniProtKB : 2016_10

31.0であることが確認できる。また、公式ページの通りPfam-Aが16712登録されていることが確認できる。

 

このPfam-Aをデータベースに使う。Pfam-A.hmm.gzをダウンロードして解凍する。

wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam31.0/Pfam-A.hmm.gz #ダウンロード
gzip -dv Pfam-A.hmm.gz #解凍

#hmmファイルを自前で作る場合、hmmbuildコマンドを使う。 

 

データベースにするには、binaryにしてindexをつける必要がある(検索高速化のため)。

hmmpress Pfam-A.hmm

4つのファイルができる。

pfam_database]$ ls -al Pfam-A.hmm.*

-rw-rw-r-- 1  uesaka  310624148 Jul 31 10:36 Pfam-A.hmm.h3f

-rw-rw-r-- 1  uesaka    1153233 Jul 31 10:36 Pfam-A.hmm.h3i

-rw-rw-r-- 1  uesaka  568043178 Jul 31 10:36 Pfam-A.hmm.h3m

-rw-rw-r-- 1  uesaka  668124941 Jul 31 10:36 Pfam-A.hmm.h3p

 

ホモロジーサーチ。

hmmscan -o output.txt --cpu 1 -E 1e-10 Pfam-A.hmm input.faa
  • --cpu       Set the number of parallel worker threads to
  • -o       Direct the main human-readable output to a file
  • --tblout   Save a simple tabular (space-delimited) file summarizing the per-target output., with one data line per homologous target model found.
  • --domtblout Save a simple tabular (space-delimited) file summarizing the per-domain output, with one data line per homologous domain detected in a query sequence for each homologous model.

hmmscanのオプション(リンク)。

 

終わると以下のようなアライメントファイルが出力される。 

f:id:kazumaxneo:20170731114248j:plain

 

-oの代わりに--tbloutをつけると1行1クエリ形式になる。下は10タンパク質調べた例。

 

f:id:kazumaxneo:20170731115225j:plain

 

 

hmmscanの他にも、hmmsearchなどいくつかのコマンドがあります(wiki)。

 

引用

HMMER web server: interactive sequence similarity searching

Robert D. Finn,* Jody Clements, and Sean R. Eddy.

Nucleic Acids Res. 2011 Jul 1; 39(Web Server issue): W29–W37. Published online 2011 May 18. doi: 10.1093/nar/gkr367 PMCID: PMC3125773.

 

Pfam | タンパク質ドメインファミリーのデータベース

 

HMMERを使ったPfamデータベースへのドメイン検索 - バイオインフォマティクス初心者の日常

 

hmmscan vs. hmmsearch speed: the numerology | Cryptogenomicon

 

https://www.biostars.org/p/10094/