macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムワイドなSNPデータとメタデータを同時に調べるためのウェブアプリケーション Evidente

 

 病原体やその系統の解析では、一塩基多型(SNP)を用いてその進化史を再構築することが一般的である。しかし、ゲノムワイドなSNPベースの系統樹がさらなる情報なしに解析されることはほとんどない。SNPのデータだけでなく、サンプルのメタデータも含めて解析することで、ゲノムと表現型の関連付けを容易にすることができる。Evidenteは、ある生物のサンプルの系統関係、ゲノムワイドSNPデータ、メタデータを同時に調べるための対話型ビジュアル解析インターフェースを提供するウェブアプリケーションである。Evidenteは、系統樹を可視化するだけでなく、SNPを樹形を支持するもの、支持しないものに分類し、対象となるサンプルやクレードにおける両タイプのSNPの分布を表示する。さらに、追加のメタデータを可視化に含めることができる。最後に、Evidenteには、ツリーのクレード内でGO termによってエンコードされた過剰に発現するゲノム特徴を特定するためのエンリッチメント解析が含まれている。Treponema pallidumとMycobacterium lepraeのデータを用いて、Evidenteの使いやすさを実証する。Evidenteは、TueVis可視化ウェブサーバー(https://evidente-tuevis.cs.uni-tuebingen.de/)で利用可能である。

 

manual

https://github.com/Integrative-Transcriptomics/Evidente2.0/wiki/

 

webサービス

https://evidente-tuevis.cs.uni-tuebingen.de/にアクセスする。

 

初期状態では、本ツールを理解しやすくするため、7サンプル、28SNPs、4種類のメタデータを含むデフォルトのTOYデータセットが読み込まれる。

系統樹は自由に拡大縮小・スクロールできる。

 

他のサンプルデータセットは右側のメニューのExample Datasetsから選択することができる。2つ目のサンプルデータをロードした。

 

(マニュアルより)Evidenteの目的は、系統データとゲノムワイドSNPデータをインタラクティブな視覚化によってリンクさせることにある。そのため、Evidenteは各SNPについて、それがクレード特異的かどうか、すなわち、そのSNPがクレードの子孫のリーフノードのそれぞれのサンプルにのみ出現するかどうかを評価する。Evidenteは、クレード特異性の計算のために、CLASSICO (CLAde Specific Snp IdentifiCatOr)というモジュールを搭載しており、入力ファイルから、系統樹のクレードを定義する最小共通祖先(LCA)に対するSNPの分布を計算する。

https://github.com/Integrative-Transcriptomics/Evidente2.0/wiki/CLASSICO:-SNP-classification

 

系統樹の内部ノードを1つ選択し、その中で見つかったすべてのSNPをリストアップする。まずshow SNPs in sidebarをクリックすると右端にSNPsの表が提示される。

SNPsのバリエーションが見たいノード部分をクリックする。ここでは3つの枝のうち、上2つの枝と下の1つの枝の系統で違いがあるのかどうか調べたいという想定で、上の写真のノードをクリックしている。

 

右側に表が提示される。ツリーの全ての葉に見つかるSNPsを選ぶ表と、特定のノードだけに見つかるSNPsを選ぶ表に分かれている。visualizeをクリックすると、そのSNPsを持つ系統が装飾される。

 

特定の系統だけに見つかるSNPsを可視化してみた。

SNPsの表示をOFFにするには、メニューの下の方になるselect to visualizeのXボタンをクリックする。

 

今度は全ての系統に見つかるSNPs。色から下のクレードと上のクレードでSNPsの塩基は異なっていることが分かる。

逆にクレード特異的ではないSNPsも可視化できる。メニューのNon Supporting SNPsから選択する。特異的ではないSNPsは白抜きの箱で表示される。

 

図はマウスホイールのスクロールで縦に伸縮、Ctrlを押しながらのスクロールで横に伸縮する。また、系統樹メタデータは独立して拡大縮小できるようになっている。

デンドログラムから、距離を含めずに子孫-祖先関係のみに着目して可視化したクラドグラム(wiki)に変更もできる。ルートをクリックしてshow as cladogramを選択。

画像はcladogram変更後。

 

系統樹も調整できるようになっている。
Collapse node

 

Hide this subtreeで特定のクレードを非表示にできる。

 

メタデータを使用して一部のクレードの非表示を自動化することもできる(詳細はこちら)。

 

図はPNGまたはPDFファイルとしてエクスポートできる(メニュー下)。

 

特定のサブツリーの統計を調べる機能も搭載されている。Compute statisticsを選択。

GO enrichment結果

 

メタデータをロードしていれば、SNPs以外のメタデータでの装飾もできる。

 

Sizeとweightを選択した。

 

 

 

自分のツリーファイルを読み込ませるには右のメニューからLoad Filesを選択する。

メタデータも同様に読み込むことができる。

 

引用

Evidente-a visual analytics tool for data enrichment in SNP-based phylogenetic trees
Mathias Witte Paz, Theresa A Harbig, Kay Nieselt

Bioinform Adv. 2022 Oct 12;2(1)