興味があるタンパク質情報を文献やデータベースからマイニングする PaperBLAST

　ゲノムシーケンスは、タンパク質の機能が決定される速度をはるかに超えて、新規タンパク質の発見を加速している（ref,1）。ゲノムシーケンスを解釈し、これらの予測されたタンパク質の役割のアノテーションを付けるには、新規タンパク質と特徴付けられたタンパク質の類似性に依存している。 30％を超える類似性を持つタンパク質は同様の機能を持っている可能性が高い（ref.2）が、酵素の基質を90％確信するためには、60％を超える類似性が必要な場合があります（ref.3）。

　残念ながら、アノテーションを作成するために使用されるタンパク質機能のデータベースは完全にはほど遠い。例として、Swiss-Protデータベース（ref.4）は、タンパク質に関する機能情報の最大のキュレーションリソースであり、約80,000のタンパク質に関する実験的証拠がある。それにもかかわらず、Swiss-Protキュレーターは、タンパク質機能に関する新しい論文の35％から45％だけをキュレートし、よく研究されたいくつかのモデル生物に焦点を当てている（ref.5）。「彼らは小規模な科学コミュニティによって研究された生物を積極的にキュレートするのに十分なリソースを持っていない」（ibid (ref.5)）。

　専門的なキュレーションに代わるものとして、テキストマイニングツールは、目的のタンパク質を議論する文献を見つけることができる（例えば参考文献6を参照）。生物学者はこれらのツールを使用して、興味のあるタンパク質に関する文献をすばやく見つけ、その機能をキュレーターに頼るのではなく、文献自体を読んでその機能を判断できる。ただし、これらのテキストマイニングツールのほとんどはモデル生物に焦点を合わせており、相同性によるアノテーションには適していない。具体的には、目的のタンパク質が与えられた場合に、類似のタンパク質に関する情報を検索するテキストマイニングツールを認識していない。 BLAST検索とUniProtおよびGenBankの文献へのリンクを組み合わせたツールがあるが（ref.7、9）、これらのツールは文献を検索しないため、対象範囲が制限される。

　相同性による検索のために文献にアクセスできるようにするために、PaperBLAST Webサイト（http://papers.genomics.lbl.gov/）を開発した。タンパク質識別子またはタンパク質配列が与えられると、PaperBLASTは、文献で議論されている類似のタンパク質を迅速に見つけ、それらのタンパク質およびそれらに関する文献へのリンクを提供する。

Example

　Pseudomonas fluorescens FW300-N2E3によるさまざまな炭素源の利用を研究しているときに、L-カルニチンの利用にはAO353_07705タンパク質が必要であることを発見した（10）。 2017年4月現在、AO353_07705はRefSeq（ref.11）で「（Fe-S）結合タンパク質」（NCBIアクセッション番号WP_054594379.1を参照）とアノテーションが付けられ、SEED（ref.12）によりpredicted L-乳酸デヒドロゲナーゼ、鉄硫黄クラスター結合サブユニットYkgF（GenBank accession no. FIG00138298を参照）。これらのアノテーションはどちらも、カルニチンの利用におけるこのタンパク質の役割を説明していない。 InterProScan（ref.13）またはUniProt（ref.4）に対するBLASTingを実行すると、同様のあいまいな情報が得られ、KEGG（14）は予測を提供しなかった。

　対照的に、PaperBLASTは、AO353_07705の多くのホモログに関する公開情報を発見した。2つの最も近いホモログは、シュードモナスの他の株からのものである（論文図1を参照）。検索には3秒もかからなかった。（P. syringaeからの）最も近いホモログに関する文献は、遺伝子調節について議論しており、機能的に有益ではないかもしれない。しかし、2番目のホモログに関する論文の1つである緑膿菌のPA5399は、グリシンベタインの異化とジメチルグリシンの脱メチル化に必要であると報告している（ref.15）。 PaperBLASTのスニペットではこのレベルの詳細は明らかではないが、スニペットにはPA5399のトランスポゾン変異株が記載されている。 AO353_07705がジメチルグリシンの分解に必要であるという仮説を考えると、AO353_07705の変異株の表現型を説明できる。（以下略）

PaperBLASTは、文献にリンクされているタンパク質配列からデータベースを構築する。これらのリンクは、EuropePMCの文献に対する自動テキスト検索と、GeneRIF、UniProtKB / Swiss-Prot、BRENDA、CAZy（dbCANで利用可能）、CharProtDB、MetaCyc、EcoCyc、REBASE、およびFitness Browserからの手動キュレーション情報から取得される。このデータベースとタンパク質配列クエリを考慮し、PaperBLASTはタンパク質-タンパク質BLASTを使用して、E <0.001の類似配列を見つける。

使い方

http://papers.genomics.lbl.gov/cgi-bin/litSearch.cgiにアクセスする。