あらゆる生物学的データは分類学的データと密接にリンクしており、いくつかのバイオインフォマティクス分析は目的を達成するために分類学的情報に依存している。メタゲノミクス、臨床法医学、その他の分野では、サンプル中に存在する生物を同定し、グループ化するために、完全に注釈された分類学的データに依存しており、多くの場合、結果をfamily、order、class、またはphylumなどの分類学的ランクにまとめている。さらに、進化論的な分析では、これまでに提案された分類学的分類に基づいて議論が行われている。分類学的情報はいくつかの分類学的データベースから得ることができ、例えば「生命カタログ」は、「Tree of Life」、「Encyclopedia of Life」、「GBIF」などの他のプロジェクトに分類学的バックボーンを提供している。これらのデータベースで提供される情報は、FishBase、AmphibiaWeb、AnimalBaseなどのように、より特定のクレードをカバーする他のデータベースに供給する分類学の専門家によってサポートされている。しかし、分子配列を含む解析は、INSDCを構成するデータベースのいずれかにDNAやタンパク質配列が登録されている生物の分類学名や系統が膨大にまとめられた参照分類学データベースであるNCBI taxonomyに依存している。INSDCは、GenBank、ENA、DBJJの3つの主要な分子配列リポジトリから構成されているため、INSDCのデータを利用しているUniprotKB、Ensembl、Pfam、SMART、Panther、OMA、miRBaseなど、多様なテーマをカバーする生物データベースでは、NCBI taxonomyの情報が広く利用されている。また、PDB、ArrayExpress、KEGGのような他の主要な生物学的一次データベースもNCBI分類学データベースの分類学データとリンクしており、バイオインフォマティクス分野におけるこのデータベースの貢献は否定できないことを示している。
NCBI taxonomyを構成する分類学的分類は、分類学的および分子系統的文献の見解を反映したトポロジーを持つ系統分類スキームに従っている。ツリーの各ノードは分類群を表し、各ノードには分類学的名称と分類学的識別子(txid)が付与されている。さらに、いくつかのノードは、分類学的ランクを持っている場合があり、これはリンネの分類システムで使用されているものに似ている。いくつかのバイオインフォマティクスのアプローチは、例えば、メタゲノムデータの分類学的プロファイルを作成したり、配列データの分類学的分類を支援するために、NCBI分類学が提供するランクベースの分類に依存している。しかし、バイオインフォマティクスのコミュニティでは、ランク情報が広く使われていることに加えて、これらのデータを管理する際に考慮すべき重要な問題がいくつかある。いくつかの生物の系統を検索する際に、いくつかのランクが欠けていることが観察される。2019年5月に行われたNCBI taxonomyに関するコンサルテーションでは、例えばブタ(Sus scrofa, NCBI:txid9823)の系統には、Orderランクを持つタクソンがなかった。一方、Thale cress(Arabidopsis thaliana, NCBI:txid3702)は、その系統にOrder rankを持つ分類群を含んでいなかった。さらに分類学的系譜を調べてみると、「ランクなし」と表記されているランクを持たない分類群も見つけることができた。これらは、単系統群を指摘しながら、系統情報を分類学のベースに加えている。
これらの問題は、このグループの分類に関する専門家の間での不確実性や対立に起因している可能性があり、NCBI taxonomyの階層的ランクを不完全なものにしている。そのため、「このデータにはクラスランクの異なるいくつの分類群が含まれているのか」というような、分類学的ランクに関する単純な問い合わせが困難になる可能性がある。例えば、オオバコのクラスと、割り当てられていないモノコットのクラスがいくつか存在する場合、それらはすべて計算データベースでは "NULL "としてカウントされ、無関係なカウントをグループ化してしまう。このような解析のためには、分類学的ランクを組み込んだ階層的に完全な分類学ツリーが非常に有用である。そこで本研究では、NCBI Taxonomyが提供する分類学ツリーを用いて、すべての系統が同じ深さを持ち、すべての階層レベルが分類学ランクに対応する階層的な分類学ツリーを生成するアルゴリズムを開発した。最終的なデータベースは、ツリーを構成する系統のすべての分類学的ランクの分類学的名称を提供することから、taxallnomyと名付けられた。ユーザーは、bioinfo.icb.ufmg.br/taxallnomyのウェブサイトから、taxallnomyデータベースの階層構造にアクセスし、探索することができる。APIを介してプログラムでデータにアクセスしたり、ローカルマシンでtaxallnomyデータベースを作成するための手順もtaxallnomyのウェブサイトで提供されている。ローカルでの作成は非常に簡単で、更新された情報の使用を許可している。
新しい階層構造はtaxallnomyと名付けられ、現在NCBI Taxonomyデータベースで使用されている33のTaxonomic rankに対応する33の階層レベルを含んでいる。Taxallnomyから、ユーザーはNCBI Taxonomyデータベースで利用可能なすべての分類の33のノードを持つ完全な分類学的系統を得ることができる。
http://biodados.icb.ufmg.br/taxallnomy/にアクセスする。
ここではE.coliの分類を調べてみる。E.coliのtxidである562を入力。
結果
ノードが小さい。上の編集バーをスライドさせてフォントサイズを拡大した。またノード間の幅(エッジ)を狭めた。
common rankからmain rankに変更。
上のcommon rank状態の階級をNCBI taxnomyの分類と比較する。
NCBI taxnomyのE.coli LIneageはcellular organisms; Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacterales; Enterobacteriaceae; Escherichiaで、Taxallnomyもmain rank表示ではその通り表示されている。
再びcommon rankに戻すと、Taxallnomyアルゴリズムで作成されたユニークなノードが追加された。
subgenusやsubfammilyなどの分類階級が追加されている。
taxonノードの色は以下の情報を表す。Taxallnomyアルゴリズムで作成されたユニークなノードは●や●になる。
結果は様々なフォーマットでダウンロードできる。
引用
Taxallnomy: Closing gaps in the NCBI Taxonomy
Sakamoto, Tetsu, Ortega, J. Miguel
bioRxiv, posted May 30, 2020