macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

REVIGO

 

 今日のハイスループット実験では、マイクロアレイ、RNA-Seq、またはさまざまなプロテオミクス手法を使用して、数千の遺伝子の発現を同時に測定している。 ChIP-on-chipまたはChIP-Seq実験は、特定のタンパク質のゲノム全体のDNA結合パターンを決定するために使用される。これは、多数の遺伝子に影響を与える可能性がある。新しいゲノムはますます増加するペースでシーケンシングされており、それらの遺伝子は相同性に基づくアノテーションのtransferによって特徴付けられている。そのような実験の結果を解釈するために、遺伝子機能カテゴリーの over-representation および under-representation の統計的検定が使用される[ref.1]。その形式と構造は、広範な手動キュレーションとともに、Gene Ontology(GO)[ref.2]をこれらの分析で選択される語彙にした。このタスクを支援するために、L2L [ref.3]、FatiGO [ref.4]、GOrilla [ref.5]、またはagriGO [ref.6]を含み、またこれらに限定されず多数のWebサーバーが存在する。

 ハイスループット技術がより安価で正確になると、遺伝子発現または他の測定された特性のわずかな変化さえ検出する。関連する遺伝子のリストはサイズが大きくなり、GO termの派生リストも大きくなる。さらに、GO termの結果セットの冗長性は、解釈を混乱させ、生物学的に関連する結果の知覚数を増大させる。これは、親子関係のtermを分析する場合によくある。親term「GO:0009058生合成プロセス」は、その子term「GO:0008610脂質生合成プロセス」を完全に包含している。過剰発現遺伝子でエンフォースされたtermのリストでは、子termが統計的に有意に高いエンリッチメントを持っている場合、親termは、子termのすべての遺伝子を含む結果として純粋に大幅にエンリッチされているように見える。

 したがって、出力から開始してこのデータを要約および視覚化する機能を提供することにより、GOカテゴリのエンフォースをテストする上記のサーバーを補完するソフトウェアが必要になる。著者らの知る限り、研究者が長いGO termリストの解釈を支援するツールはほとんどないが(論文執筆時点)、一部のWebサーバーはこの方向に進んでいる。 GOrilla [ref.5]は、標準のGOグラフ構造にオーバーレイされた充実したGOカテゴリの視覚化を提供する。

 研究者は完全なGene Ontologyを「GO Slims」(Gene Ontologyの縮小版)に置き換えることにより、長いGO termリストの簡素化を試みる場合がある。ただし、GO Slimは、一般的な(高レベルの)GO termに限定されており、一般的にはGO slimから削除されたよりきめの細かいtermよりも関心が低くなる。したがって、このようにGO termの子孫(または祖先)を削除しても、冗長なGO termを取り除く問題は簡単に解決されない。 GOの複雑な構造は、GO termの「意味的類似性」尺度[ref.8]によって定量化されたGOグラフ内のtermの近接性を考慮したソリューションを保証する。

(a)機能の冗長性を減らして長いGOリストを要約し、(b)残りのGO termを2次元プロット、インタラクティブグラフ、ツリーマップまたはタグクラウドで視覚化する計算アプローチを実装した。要約と視覚化の両方のステップは、[ref.8]でレビューされているGO termの意味的類似性の概念に基づいている。特に、「最も有益な共通の祖先」アプローチを採用するセマンティック類似性のいくつかの一般的な尺度[ref.9]がサポートされている。この実装は、http://revigo.irb.hr/でREVIGO Webサーバーとして自由に利用できる。

 

 

webサービス

注意;結果の視覚化にはセキュリティリスクのあるFLASHが必要(adobe FLASH player link)。インストールは推奨しません。

 

http://revigo.irb.hr にアクセスする。

f:id:kazumaxneo:20190824181723p:plain

 

 以下の生物に対応している。デフォルトはwhole uniprot。

f:id:kazumaxneo:20200411105250p:plain

 

exampleデータ。GO IDとP-valueをペーストする。

f:id:kazumaxneo:20200411110921p:plain

%はコメントアウト。提供したp値が選択の指針として使用される。

 

シロイヌナズナの2群間比較の結果を分析してみた(RaNA-seq解析サーバー使用)。

P-valueなし

f:id:kazumaxneo:20200411110730p:plain

GO termの意味的類似度の行列に多次元スケーリングを適用して得られた2次元空間におけるクラスタ代表(すなわち、冗長性削減後に残った語彙)を示す。より意味的に類似したGOがプロットの中でより近くになる。クラスタの表記について、非常に一般的なGO termは情報に乏しい傾向があるため、クラスタ代表としては避けられる。

 

x軸、Y軸はその場で変更可能。

f:id:kazumaxneo:20200411115552p:plain

 

プロットの色とサイズは、デフォルトではlog10 P valueに従う。こちらも変更可能。

f:id:kazumaxneo:20200411120621p:plain

 

 

Interactive Graph

グラフベースの可視化も可能。

f:id:kazumaxneo:20200411112451p:plain

バブルの色はユーザーが提供したp値を示し、バブルのサイズは基礎となる GOA データベースにおける GO termの頻度を示す。類似度の高い GO termは、グラフ内のエッジによってリンクされており、線幅は類似度を示している。ノードの初期配置は、類似度の高いノードをより近くに保つことを目的とした「強制的に指示された」レイアウト・アルゴリズムによって決定される。

 

TreeMap

ツリーマップ(図 4)は、GO termの 2 階層構造を示している。散布図とグラフのクラスター代表は、ここではいくつかの非常に高いレベルのグループに結合されています。タグクラウドは、(a)ユーザーから提供されたGO用語リストのGO用語の説明に多く含まれているキーワード(図5)、および(b)ユーザーから提供されたp値/エンリッチメントと相関のあるキーワードを示しています。

 

f:id:kazumaxneo:20200411112512p:plain
各スクエアは、1つのクラスタの代表を表す。これらの代表は、ゆるく関連した語彙の「スーパークラスター」に結合され、異なる色で表示される。スクエアのサイズはp値または GO termの頻度を反映するように変更できる。

 

Tag clouds

f:id:kazumaxneo:20200411113140p:plain

 

感想

少し前の学会ではREVIGOの結果を使ったポスター発表を度々見かけました。FLASH依存なのが今では弱点になってしまってますが、広く使われている印象です。

引用

REVIGO Summarizes and Visualizes Long Lists of Gene Ontology Terms
Fran Supek,  Matko Bošnjak,  Nives Škunca,  Tomislav Šmuc

PLoS One. 2011; 6(7): e21800