macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

分類学の変遷に対応するためのリソース Taxonomy Time Machine

 

 NCBI分類学データベースは、ゲノム情報を分類学的関係にリンクするための主要なリソースであり、科学分野全体で広く利用されており、バイオインフォマティクスにとって極めて重要である。このデータベースは、研究者が分類学的関係を発見し、改良するにつれて絶えず変化している。しかし、過去の分類学的状態を追跡・比較することは、頻繁な変更と多数の過去のスナップショットをふるいにかける必要があるため、困難である。この問題に対処するため、本著者らはTaxonomy Time Machineを開発した。これは、スペース面で効率の良い方法で分類樹の多くのスナップショットを保存するためのデータベースである。また、このデータにアクセスしやすくするために、ウェブベースおよびプログラム(API)インターフェースを作成した。このツールは、NCBI分類データベースの歴史上のどの時点においても、分類系統を正確に再構築することができる。このツールは、完全に正確であると同時に、個々のタクソノミースナップショットをロードしてクエリするよりも大幅に効率的であり、デスクトップコンピュータやコモディティウェブサーバでの使用が可能であることを実証している。このツールは、MITライセンス(https://github.com/onecodex/taxonomy-time-machine)の下でのオープンソースだけでなく、ウェブ上(https://taxonomy.onecodex.com)でも利用可能である。

 

Github

APIとしての利用もできますが、ここではweb版について紹介します。

webサービス

https://taxonomy.onecodex.com/ にアクセスする。

 

NCBI taxIDか生物名をタイプする。

 

出力例

"Bacteroides dorei"で検索した結果

(一番下に、このスナップショットのソース情報が書かれている。"Data retrieved from NCBI taxdump archive (2021-03-01)"となっている)

 

現在のバージョンでは、2014年8月1日以降の記録となっている。上の時間バーを移動させると、下の表にBacteroides doreiがその時点でどのようなTaxonomic Lineageであったかが示される。

 

例えばStreptosporangium sp. 319C07だと、2020年7月のtaxonomyスナップショットだとActinobacteriaとなっている。

 

しかし、2021年にICNPに門名が正式に含まれるようになったため、2023年2月のtaxonomyスナップショットに変更すると、門名はActinomycetotaとなった。

 

コメント

ディスカッションで、このツールの今後の展望として、taxdump.tar.gzの制限で2014年となっているが、古い記録媒体からの情報を取得して、もっと以前のスナップショットも追加できないか、またGTDBのようなサードの分類体系の情報も追加することなど書かれています。可能であれば期待したいところです。

追記

ブログの更新がたいへん滞ってしまい申し訳ありません。しばらく研究用のデータベースのデータ収集と加工に集中していました。時間を見つけて再開していきます。

引用

A Time Machine for Taxonomy
Austin Davis-Richardson,  Timothy Reynolds

bioRxiv, Posted December 12, 2024.

 

関連