ゲノムシーケンシングは、遺伝子の完全なレパートリーを明らかにし、分子レベルでの細胞プロセスの研究を可能にする可能性を有する、生物の分子調査のための最も包括的な方法である。相同性、共有された祖先の証拠としての遺伝子配列の類似性認識は、他の種における関連遺伝子の生物学的役割が特徴付けられたとき、遺伝子機能に関する仮説を可能にする。特定のphylogeny radiation、すなわち最後の共通祖先のシングル遺伝子の子孫のホモログはオルソログと呼ばれ、以下ではオルソログ群またはOGと呼ばれる(ref.1,2)。特定の祖先遺伝子にピンされたそのような遺伝子系譜は、子孫遺伝子の特異的な機能的仮説を行うことを可能にする(ref.3,4)。Orthologyはまた、比較進化研究の基礎でもある。遺伝子オルソロジーの大規模な描写は、多数の提案されたアプローチによって証明されているように(ref.5-14)人気があるが挑戦的な課題である。
OrthoDBはオルソログの最大のリソースの1つである(ref.15)。基礎となるアルゴリズムのベンチマーク(ref.15、16)を超え、著者らの方法論の正確さは多くの比較ゲノム研究(例えばref.17-19)を通して、特に i5K initiative(ref.20, link)においてその評判を得た。オルソロググループの概念はinherently hierarchicalであることで、なぜならそれぞれの系統学的クレードまたはサブクラスの種が異なる共通の祖先を持つからである。 OrthoDBは創立以来、この側面を明確に強調してきた(ref.21, pubmed)。(一部略)
OrthoDBは、他の公的リソースから広範囲に集められた遺伝子のfunctional annotationsを要約することによって、オルソログのグループの暫定的なfunctional annotationsおよび functional categoriesへのマッピングを提供する。遺伝子のアノテーションは複雑でエラーがありえる。多くの場合、OrthoDBは基礎となるデータ内のそのようなエラーを明らかにするが、一致しないアノテーションは慎重に検討する必要がる。オルソログのevolutionary annotationsは、OrthoDBのもう1つの際立った特徴である(論文 図1)。今回のアップデート(v10)では、生物のカバレッジをさらに拡大し、基礎となるアルゴリズムを調整し、Webインターフェイスの使いやすさを改善した。
広く受け継がれている遺伝子のかなりの部分がシングルコピー制御下で進化する(ref.22)。これらは予測が最も簡単で、BUSCOツールの基礎となっている(ref.23)(紹介)。 BUSCOはBenchmarking Universal Single-Copy Orthologsの略である。このソフトウェアは、進化的に情報を得た遺伝子内容からの予測に基づいて、ゲノムアセンブリ、遺伝子セットまたはトランスクリプトームの完全性を定量的に評価し、N50のような技術指標を補完することを目的としている。著者らはこれらのBUSCOマーカー遺伝子をOrthoDBから派生させているが、OrthoDBはまた、遺伝子の重複やロスという困難なケースを解決するよう努めている。根底にあるゲノムの質およびそれらのアノテーションに加えて、種の多様性のサンプリングが、推定される遺伝子オルソロジーの正確さに影響を与える主な要因であることが示された(ref.16)。そのため、OrthoDBは、計算リソースで実用的な範囲でできるだけ多くのシーケンスの多様性をカバーするように努めている。 MASH推定を用いて約96%以上の同一性を有する利用可能な複数のゲノムがある場合(ref.24)、BUSCO測定基準に従って(ref.25)最も完全な遺伝子セットを有する最もアノテーションが付けられた代表をサンプリングする。
論文表1に詳細が示されているように、OrthoDB v10は、1271の真核生物、5609のバクテリア、404のアーキア、および6488のウイルスをカバーしている(2018年9月現在)。全体として、OrthoDB v10は3,700万を超える遺伝子を網羅しており、624レベルの粒度で850万を超える暫定的なオルソロググループに分類されている。The orthology-levelsは現存するオルソログが発生した最後の一般的な祖先を参照するが、NCBI Taxonomy(ref.26)に従って定義されている。このリリースのためのタンパク質をコードする遺伝子の翻訳は、主にRefSeqおよびNCBI completeゲノムから取ってこられたものだが、 genome assembly ID は、現在ブラウズ可能な生物の分類から取ってこられている。
OrthoDB graphical abstract depicting the data processing pipeline. 論文より転載
Help
https://www.orthodb.org/?page=help
使い方
https://www.orthodb.org にアクセスする。
ここではComparative chartsを使ってみる。右側のメニューからオロソログを比較したい種を選択。
例えばMicromonosporaceae目で登録されている17ゲノムのオロソログを比較してみる。
Bacteriaから展開していき、Micromonosporaceaeのチェックボックスを選択した。
上のBOXに表示されるので、よければsubmitボタンをクリック(最大20)。
結果が表示される。
H.sapiensとGorilla
グラフのバーをクリックすると、オロソログをテキストで表示できる。グラフは右上のボタンからSVG(ブラウザで表示できる)かビットマップでダウンロードできる。
APIによるアクセス
データベースファイルのダウンロード
https://www.orthodb.org/?page=filelist
引用
OrthoDB v10: sampling the diversity of animal, plant, fungal, protist, bacterial and viral genomes for evolutionary and functional annotations of orthologs
Kriventseva EV, Kuznetsov D, Tegenfeldt F, Manni M, Dias R, Simão FA, Zdobnov EM
Nucleic Acids Res. 2019 Jan 8;47(D1):D807-D811
OrthoDB v9.1: cataloging evolutionary and functional annotations for animal, fungal, plant, archaeal, bacterial and viral orthologs
Evgeny M. Zdobnov,* Fredrik Tegenfeldt, Dmitry Kuznetsov, Robert M. Waterhouse, Felipe A. Simão, Panagiotis Ioannidis, Mathieu Seppey, Alexis Loetscher, Evgenia V. Kriventseva
Nucleic Acids Res. 2017 Jan 4; 45(Database issue): D744–D749.
OrthoDB v8: update of the hierarchical catalog of orthologs and the underlying free software
Kriventseva EV, Tegenfeldt F, Petty TJ, Waterhouse RM, Simão FA, Pozdnyakov IA, Ioannidis P, Zdobnov EM
Nucleic Acids Res. 2015 Jan;43(Database issue):D250-6
OrthoDB: a hierarchical catalog of animal, fungal and bacterial orthologs.
Waterhouse RM, Tegenfeldt F, Li J, Zdobnov EM, Kriventseva EV
Nucleic Acids Res. 2013 Jan;41(Database issue):D358-65
OrthoDB: the hierarchical catalog of eukaryotic orthologs in 2011
Waterhouse RM, Zdobnov EM, Tegenfeldt F, Li J, Kriventseva EV
Nucleic Acids Res. 2011 Jan;39(Database issue):D283-8
OrthoDB: the hierarchical catalog of eukaryotic orthologs
Kriventseva EV, Rahman N, Espinosa O, Zdobnov EM
Nucleic Acids Res. 2008 Jan;36(Database issue):D271-5