macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Genome properties (GP)

 

 現代のDNAシーケンシング技術は、単離した生物のみならず、生物のコレクション(メタゲノミクス)のDNA配列を決定する能力に革命をもたらした。一握りの特徴づけられた配列から新規ゲノムにコードされた遺伝子への自動アノテーションは、特に原核生物ゲノムでは日常的に行われているものの、科学文献における機能的データの同定と、伝達されたアノテーションを獲得すべきそれらの配列を定義する方法が必要である。包括的な蛋白質配列ナリッジベースであるUniProtKB (ref.1) の自動アノテーションの大部分の配列は、種々の蛋白質ファミリーデータベースによりInterProに統合されInterPro (ref.2) (プロファイルベース蛋白質ファミリーモデル位置特異的スコアリング行列(PSSMs)や隠れマルコフモデル(HMMs)プロファイルを用いる)により同定される。これらのモデルは、単一配列マッチング法と比較して、多様なタンパク質ファミリーメンバーを検出する際に、はるかに高い感度を提供する。

 個々の遺伝子やタンパク質のアノテーションは、生物がどのように生態的ニッチに適応しているかを理解するための重要な前提条件であるが、高次の機能は複数のタンパク質によって行われることが多い。例えば、複数のタンパク質が一緒になってトランスポーター系のような機能的複合体を形成する場合や、グルタミン酸からのプロリンの生合成のようなパスウェイで複数のタンパク質が必要な場合である。これは、パスウェイの3つの段階を触媒するために3つの異なる酵素を必要とする4段階の過程である。Kyoto Encyclopedia of Genes and Genomes(KEGG) (ref.3) およびSEEDサブシステム (ref.4) のようなリソースはパスウェイ、複合体およびネットワークのアノテーションのために広く使用されている。KEGGが広く使用されている一方で、データの一部がユーザーに無料で提供されなくなったため、使用が制限されている。KEGGとSEEDの両サブシステムは、ゲノムアノテーションをBLASTに基づく検索に依存している(ref.5、6)。最初に導入されたとき、これらのBLASTに基づく方法は、タンパク質ファミリーデータベースによって使用されるHMMER2に基づくプロファイルHMMと比較して優れた速度を有した。しかしながら、シーケンシングされたゲノムの数が経時的に増加するにつれて、リファレンスおよびターゲット配列データベースの両方のサイズが有意に増加した。これはペアワイズBLASTベース探索の速度に負の影響を与え、探索速度を改善するためにヒューリスティクス(例:GHOSTX (ref.7))を実装するアルゴリズムの採用につながった。HMMER3 (ref.8) の出現と、より最近の反復的な改良により、プロファイルHMMベースの検索の速度が向上し、BLASTと同等になった。プロファイルベースのタンパク質ファミリーリファレンスデータベースははるかに小さく、カバレッジを維持しながら線形の率で成長するため、単一シークエンスベースの検索に比べて、スケーラブルでより感度の高いソリューションを提供する。この感度は、リファレンスデータベース(ref.9,10)に反映されていない多様な生物が分析に含まれるメタゲノミクスに関して特に重要である。

 Genome Properties (GP) は,原核生物ゲノムの機能的アノテーションを改善し、比較ゲノミクス(ref.11-13)を支援する方法を提供するTIGRFAMリソースの拡張として最初に開発された。本質的には、これはクエリ可能な一連の分子再構築(例えばパスウェイ)からなり、任意のゲノムにコードされ得る高次機能の推定を可能にする。たとえば、生物がビオチンを合成するためには、そのゲノムが生化学的段階を行うのに必要なすべてのタンパク質をコードしていることを示せばよい。必要な蛋白質の存在を決定するため、GPの以前のバージョンはPfam (ref.14) プロファイルHMMのスモールサブセットで捕捉されたTIGRFAMにより産生されたプロファイルHMMを主に利用した。利用可能なモデルをこれらのリソースだけに限定することは、利用可能な特定のファミリーモデルの数、およびアノテーションを付けることができる生物の分類範囲に制限があることを意味した。

 TIGRFAMとPfamはいずれもInterProの一部であり、InterProは自由に利用できるリソースであり、ユーザーはタンパク質配列をファミリーに分類し、タンパク質配列内の重要なドメインと部位を予測することができる (ref.2)。InterProにおけるアノテーションの広さと深さは,14の専門データリソースメンバーコンソーシアムからの蛋白質ファミリーとドメイン予測モデル(プロフィールHMMを含むがこれに限定されない)を組み合わせることによって達成される。さまざまなタンパク質モデルを組み合わせて、各タンパク質ファミリー、ドメイン、または部位を統一した方法で記述するInterProエントリを作成する。InterProScan(ref.15)は、タンパク質シークエンスをInterPro予測モデルと比較するためのソフトウェアである。UniProtKBリソース (ref.1) に含まれるすべてのタンパク質配列のInterProマッチは、月単位で計算され、すべてのUniProtKB配列の機能アノテーションの包括的で最新のセットを提供する。

 InterProで利用可能な蛋白質ファミリーモデルの非常に大きなコレクションを考慮して、任意のInterProエントリー(したがって、関連付けられたメンバー・データベース・シグネチャ)がGPステップを表すために使用できるようにGPを拡張した。GPはEMBL-EBIに移行され、InterProのコンパニオン・データベースとなった。これはGPがすべてのUniProtKB配列に対して既に存在するInterProScan計算を活用することを可能にし、それにより、UniProtKB中にプロテオームが存在する任意の種に対するGPの存在を予測するための単純で効率的なプロセスを提供する。ここでは,InterProの使用への移行、新しいGPの機能性、およびGPの拡張で利用可能なGPの拡張、GPの多数の展開、GPの中でGPの開発を記述する。

 

Documentation

 

 

 --Online Training Resources--

For a brief overview (< 30 mins) => Genome Properties Quick Tour

For a more in-depth course (> 30 mins) => Genome Properties Tutorial

 

 

使い方

Genome propertiesは、そのゲノム内のタンパク質シグネチャの定義済みセットの存在に基づいて、機能属性をゲノムに割り当てることができるアノテーションシステムである。ユーザーは、階層内に配置されたゲノムプロパティ(多くの場合、パスウェイを記述)を参照し、各プロパティ内で定義された特定のステップを調べたり、インタラクティブなビューアを使用して、変更可能なゲノムのセット全体で、それらが見つかったり見つからない種のプロパティを比較できる。

 

 

https://www.ebi.ac.uk/interpro/genomeproperties/ にアクセスする。

f:id:kazumaxneo:20190527235627p:plain

 

Browse

Browseからはgenome propertiesを検索したりブラウズできる。

GenProp0724 - Phosphonoacetaldehyde biosynthesis from phosphoenolpyruvateを見てみる。論文と、関係する酵素タンパク質、そのInterpro、TIGRAMs、そしてGOのリンクもまとめられている。Metacycへのリンクがある場合もある。

f:id:kazumaxneo:20200210012058p:plain

 

Viewer

すべてのゲノムプロパティは、約200種のリファレンスセットに対して事前に計算されている。ビューアーページにアクセスすると、リファレンス種の分類ツリーがページの上部に読み込まれる。分類ツリーは、ノードをクリックしていき、目的の種のセットが見つかるまで進めるようになっている(解説ページ)。

f:id:kazumaxneo:20200210013627p:plain

Interproで事前計算すれば、ユーザー指定の新規ゲノムも比較できる。

(手順がわかったら追記します。)

 

引用

Genome properties in 2019: a new companion database to InterPro for the inference of complete functional attributes
Lorna J Richardson Neil D Rawlings Gustavo A Salazar Alexandre Almeida David R Haft Gregory Ducq Granger G Sutton Robert D Finn
Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D564–D572

 

参考

http://www.jst.go.jp/nbdc/bird/jinzai/literacy/streaming/h21_4_2.pdf

 

関連

conda