macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

eggNOG データベース

2022/06/25追記

 

 eggNOG 5.0のペーパーより

 分化イベント後に共通の祖先から分岐したオルソログを同定することは、分子生物学および進化生物学における基本的な課題である。 duplication eventの後に分岐した配列であるパラログと比較して、オルソログは長い進化的タイムスケールでもその先祖の機能を保持する傾向がある(ref.3)。したがって、相同性関係のこれら2つのサブタイプを区別することは、正確な機能予測を作成するためにきわめて重要になる(ref.2,4,5)。それはまた、例えば系統学および比較ゲノミクス(ref.6)またはセルタイプ進化の研究(ref.7)における適切な分析にも不可欠である。そのため、さまざまなアプローチと運用上の定義を使用して事前計算されたオルソログ予測を提供するデータベースが長年にわたって開発されてきた(ref.8–13)。 eggNOGを含むこれらのリソースの大部分は、international consortium Quest for Orthologs(ref.14)の一部であり、標準化されたベンチマークアプローチ(ref.15)であり、リファレンスデータセットは開発され共有されている。

 eggNOG(evolutionary genealogy of genes: Non-supervised Orthologous Groups)は、数千のゲノムが一度に分析されてそれらの全遺伝子間のオルソログ関係を確立している公共のリソースである。同種のデータベースと比較して、eggNOGは以下を提供することに焦点を合わせている。(i)推論されたオルソログに対する包括的な機能的アノテーション、(ii) three domains of lifeをカバーする何千ものゲノムにわたる予測、およびiii)オルソログ割り当てとphylogenetic analysisに基づく細かい粒度の階層的関係(すなわち、in-paralogies))。そのために、最善の相互ヒットの三角測量の概念に基づく種を意識したクラスタリングアルゴリズム(ref.16)を適用して、直交グループ(OG):同一のスペシエーションイベントから分岐し始めた相同配列のセットを識別する。 2008年に開始されて以来(ref.17)、生命のツリーの先端の解像度が高まるにつれオルソログ関係は想定されるリファレンスの分岐イベント(アウトグループ)に応じて変わってきているので、eggNOGは異なる分類レベルでオルソログ予測を計算する。すべての分類レベルからのすべてのOGs(orthologous groups)は、系統的方法を用いて機能的にアノテーション付けられ、分析される。これにより、各OG内のスペシエーションおよび重複イベントの履歴を詳細に調べることができる。

  ここでは、eggNOG v5.0について説明する。以前のバージョンと比較して以下の点が改善されている。(i)原核生物、真核生物、ウイルスゲノムの中で最も包括的な選択肢の1つを含む、基礎データベースのメジャーアップグレード。 (ii)カスタム(メタ)ゲノムアノテーションのオンラインサービス更新。現在は高速オルソログ予測とクラウドコンピューティングによる計算能力の向上のオプション、および(iii)OGとそれに関連する機能データのより良い視覚化オプションが含まれる。

 

Methods

README (v4.5) 

http://eggnogdb.embl.de/download/eggnog_4.5/README.txt

wiki

https://en.wikipedia.org/wiki/EggNOG_(database)

 

 

使い方

http://eggnog5.embl.de/#/app/homeにアクセスする。

f:id:kazumaxneo:20191026130403p:plain

2019年10月現在利用できるのは、5090のcellular organismsと2502のvirusesからの4.4Mのオロソロググループ情報となる。中央の下の方に以前のバージョンへのリンクもある。

 

上のサーチウィンドウからCitrate synthaseと検索してみた。複数候補表示された。

f:id:kazumaxneo:20191026130246p:plain

ここではCitrate synthase 1を選択。

 

そのキーワードでヒットしたオロソロググループが複数表示された。

f:id:kazumaxneo:20191026130926p:plain

 

青がtaxonomy情報などを表している(rootは系統樹のrootのこと)。オレンジ部分が含まれるprotein数を表している。

f:id:kazumaxneo:20191026131126p:plain

下の方はバクテリアの特定のクレードのヒットだった。

 

ここでは全生物を含めたいのでrootのCOG0372を選択した。改めてrootとbacteriaが表示された。ここではrootのオロソロググループを調べてみる。

f:id:kazumaxneo:20191026132426p:plain

 

それぞれのヒットの下にある文字をクリックする。

f:id:kazumaxneo:20191026132612p:plain



Orthologous Groupをクリック。含まれるタンパク質リストが表示される。

f:id:kazumaxneo:20191026132742p:plain

上のボタンから全リストと全配列をダウンロードできる。

 

左から2つ目のTaxonomic Profileをクリック。

f:id:kazumaxneo:20191026132842p:plain

Eukaryota(下の方の水色部分)は11.2%含まれる。

f:id:kazumaxneo:20191026132919p:plain

 

左から3つ目のFunctional Profileをクリック。3種類のアノテーション情報が利用できる。

Gene Ontology

f:id:kazumaxneo:20191026133446p:plain

KEGG pathways(アサイン頻度の高いもの)

f:id:kazumaxneo:20191026133545p:plain

Domains(アサイン頻度の高いもの)

f:id:kazumaxneo:20191026133607p:plain

 

右端のDownloadから全データをダウンロードできる。

f:id:kazumaxneo:20191026133725p:plain



rootより下の階層ではより多くの比較を実行できる。

RubiscoのRibulose 1,5-bisphosphate carboxylase/oxygenase large subunit検索。下に表示されるメニューがrootより多いのが分かる。

f:id:kazumaxneo:20191026145332p:plain

ここでは143ヒットするシアノバクテリアを選択した。

 

alignment (raw /trimmed)

f:id:kazumaxneo:20191026144426p:plain


Phylogenetic Tree + PFAM domains

f:id:kazumaxneo:20191026145603p:plain

膜タンパク質は推定膜貫通領域のも表示される。

f:id:kazumaxneo:20191026150409p:plain


Phylogenetic Tree + aligned blocks

f:id:kazumaxneo:20191026145856p:plain

 

ダウンロードからはHMM modelファイルなどもダウンロードできるように変化している。

f:id:kazumaxneo:20191026145934p:plain

 

その他のサービスとして、Find orthologs by sequence similarityでは配列を入力してオロソロググループをサーチできます。

http://eggnog5.embl.de/#/app/seqscan

f:id:kazumaxneo:20191026134456p:plain

 

2022/06/25追記

MSAファイルやHMMプロファイルは幅広い分類群のタンパク質配列セットから作成されており、ダウンロードして利用できる。見るかぎりNCBI COGとeggNOG COGのIDは合致している。


引用

eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses
Jaime Huerta-Cepas, Damian Szklarczyk, Davide Heller, Ana Hernández-Plaza, Sofia K Forslund, Helen Cook, Daniel R Mende, Ivica Letunic, Thomas Rattei, Lars J Jensen, Christian von Mering, Peer Bork

Nucleic Acids Res. 2019 Jan 8; 47

 


eggNOG 4.5: a hierarchical orthology framework with improved functional annotations for eukaryotic, prokaryotic and viral sequences

Huerta-Cepas J1, Szklarczyk D2, Forslund K1, Cook H3, Heller D2, Walter MC4, Rattei T5, Mende DR6, Sunagawa S1, Kuhn M7, Jensen LJ3, von Mering C8, Bork P

Nucleic Acids Res. 2016 Jan 4;44

eggNOG v4.0: nested orthology inference across 3686 organisms
Sean Powell,1 Kristoffer Forslund,1 Damian Szklarczyk,2 Kalliopi Trachana,3 Alexander Roth,2 Jaime Huerta-Cepas,4,5 Toni Gabaldón,4,5 Thomas Rattei,6 Chris Creevey,7 Michael Kuhn,8 Lars J. Jensen,9,* Christian von Mering, Peer Bork

Nucleic Acids Res. 2014 Jan 1; 42

eggNOG v3.0: orthologous groups covering 1133 organisms at 41 different taxonomic ranges
Sean Powell,1 Damian Szklarczyk,2 Kalliopi Trachana,1 Alexander Roth,3 Michael Kuhn,4 Jean Muller,5,6 Roland Arnold,7 Thomas Rattei,8 Ivica Letunic,1 Tobias Doerks,1 Lars J. Jensen,2,* Christian von Mering, Peer Bork

Nucleic Acids Res. 2012 Jan; 40


eggNOG v2.0: extending the evolutionary genealogy of genes with enhanced non-supervised orthologous groups, species and functional annotations
J. Muller,1 D. Szklarczyk,1,2 P. Julien,3 I. Letunic,1 A. Roth,4 M. Kuhn,1 S. Powell,1 C. von Mering,4 T. Doerks,1 L. J. Jensen, P. Bork

Nucleic Acids Res. 2010 Jan; 38


eggNOG: automated construction and annotation of orthologous groups of genes

Jensen LJ1, Julien P, Kuhn M, von Mering C, Muller J, Doerks T, Bork P.

Nucleic Acids Res. 2008 Jan;36

 

関連

 

参考

Question: What is the difference between eggNOG, COG and KEGG?

https://www.biostars.org/p/286615/