macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

GTDBのオンライン系統樹 AnnoTree

2019 11/6 タイトル修正、説明追加

 

 重要な生物学的および進化的洞察は、種の系統発生にわたる遺伝子および機能的アノテーションの有無を調査することにより生成できる。これらには、予期しない taxonomic occurrences の特定(ref.1)、遺伝子の進化的起源の発見(ref.2)、推定水平遺伝子伝播(HGT)イベントの特定(ref.3,4)が含まれる。これまでにキャラクタライズおよび培養されていない系統からの情報を含む、利用可能なゲノム配列の継続的な指数関数的増加により、オンラインゲノムリポジトリは予測遺伝子および機能的アノテーションのますます貴重なコレクションになりつつある。この豊富なゲノムデータにより、遺伝子ファミリーの分布と進化の歴史の大規模な検査の機会が訪れているが、データベースへのアクセス、更新、視覚化は容易ではない。

 アノテーション付きの系統発生を作成するための、分類学的情報と機能的情報を統合する多くの戦略が存在する。たとえば、BLAST(ref.5)または関連する方法を使用して取得した遺伝子ファミリーのホモログは、iTOL(ref.6)またはGraPhlAn(ref.7)などのツールを使用して、カスタムのspeciesツリーに手動でマッピングできる。あるいは、いくつかのオンラインバイオインフォマティクスデータベースは、リンネの分類またはNCBI分類に基づいて、遺伝子の taxonomic distributions の事前計算された要約を提供する(ref.8–11)。しかし、分類学上キュレートされ高度な解像度を持つ tree of life全体の遺伝子/機能の分布をユーザーが探索できるツールが必要である。

 ここでは、AnnoTree(annotree.uwaterloo.ca)を紹介する。AnnoTreeは機能的にアノテーションが付けられた細菌の tree of lifeであり、27000以上の細菌および1500の古細菌ゲノムの遺伝子/機能的アノテーションインタラクティブな探索を可能にする。 AnnoTree内で使用される系統学および分類学命名法は、最近開発されたゲノム分類データベース(GTDB;リリース03-RS86)から派生している(ref.12)。 GTDBは、標準化された(分類学上の命名法と系統学が内部的に一貫性があるように作られている)徹底的な(メタゲノムソースから派生した多数の新規原核生物ゲノムを含む)アノテーション付きの tree of life構築により、いくつかの課題を克服している。これにより、GTDB taxonomyとAnnoTreeがNCBI taxonomyに依存する同様のアプローチと区別される(ref.13)。その階層は、微生物系統のいくつかの最近の再構築と一致しない(ref.14,15)。

 遺伝子予測は、Prodigal v2.6.3で実行された(ref.16)。 Prodigalは、最近のベンチマーク調査(ref.17)での最高のパフォーマンスとGTDB独自のアノテーションパイプライン(https://github.com/Ecogenomics/GTDBTk)との一貫性に基づいて選ばれた。予測された遺伝子には、Pfam v27.0(ref.10)、TIGRFAM v15.0(ref.18)、およびUniRef100(ref.19)(2018年3月6日ダウンロード)データベースを使用してアノテーションが付けられた。 (以下略)

 

Example

http://annotree.uwaterloo.ca/app/examples.html

 

 

使い方

http://annotree.uwaterloo.ca にアクセスする。

f:id:kazumaxneo:20191029104138p:plain

中央のLaunchボタンをクリックして立ち上げる。

 

しばらく時間がかかる。

f:id:kazumaxneo:20191028193933p:plain

 

ロード後の初期画面。

f:id:kazumaxneo:20191028194028p:plain

 左上にメニューがある。階級を変更したりできる。

f:id:kazumaxneo:20191029104337p:plain

バクテリアアーキアか選ぶにはTree Typeをクリックする。

f:id:kazumaxneo:20191029104750p:plain

phyumに変更。シンプルになった。

f:id:kazumaxneo:20191029135856p:plain

 

特定の菌を探索するには、上のサーチメニューから行う。 左の選択をTaxonomyに切り替え、ここではEscherichiaとタイプしていく。タイプ途中からインクリメンタルサーチで絞り込まれるので、該当するものをクリックする。

f:id:kazumaxneo:20191029140401p:plain

 

該当する枝が強調表示される。

f:id:kazumaxneo:20191029140810p:plain


文字をクリックするとメニューが出現し、ジャンプできる。

f:id:kazumaxneo:20191029140458p:plain

speciesレベルに切り替えた。7000オーバーと流石に数が多い。他のバクテリアにして説明を続ける。

f:id:kazumaxneo:20191029141148p:plain

 

これは全く異なるクレードのバクテリア、speciesレベルに切り替えてある。

f:id:kazumaxneo:20191029141013p:plain

 

下は枝をorderレベルの解像度で表示したものになる。上のメニューからcyanobacteiraをphylumレベルで検索しているので、cyanobacteira門が青でハイライト表示されている。

f:id:kazumaxneo:20191107125938p:plain

系統樹中の表記を変えるにはtaxonomic levelを変更する。

f:id:kazumaxneo:20191107130058p:plain

taxonomic levelをclassに切り替えた。下の分類階層になったため、表記が増えている。

f:id:kazumaxneo:20191107130119p:plain

このように枝の解像度はorder、

f:id:kazumaxneo:20191107130255p:plain

一方で文字に表記されるにはclassレベル、という風にそれぞれ異なるランク表現できる。

f:id:kazumaxneo:20191107130058p:plain

 

 

 

ここから特定の酵素をコードする遺伝子がアノテーションされているか調べる。KEGGに切り替え、KO識別子か酵素名で検索。

f:id:kazumaxneo:20191029141648p:plain

 

この酵素はこれだけの菌でアノテーションされている。

f:id:kazumaxneo:20191029141754p:plain

 

複数同時検索も可能。

f:id:kazumaxneo:20191029142003p:plain

 

表示されている絵はSVGで出力できる。このSVGイラストレーター互換で、イラストレーターで開いて全オブジェクトを修正する事が可能。

f:id:kazumaxneo:20191029105020p:plain

NCBI blastの結果のXML2を取り込む事もできます。blastの結果のDownload All =>single XML2を選択。

f:id:kazumaxneo:20191029142434p:plain

 

ダウンロードしたファイルを指定する。

f:id:kazumaxneo:20191029142606p:plain

読み込まれた。

f:id:kazumaxneo:20191029142701p:plain

 

引用

AnnoTree: visualization and exploration of a functionally annotated microbial tree of life
Kerrin Mendler, Han Chen, Donovan H Parks, Briallen Lobb, Laura A Hug, Andrew C Doxey
Nucleic Acids Research, Volume 47, Issue 9, 21 May 2019, Pages 4442–4448

 

関連