macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GO エンリッチメント解析を実行し、バックグラウンドセットと比較して過剰に存在する語彙を調べる FunSet

 

 遺伝子オントロジーエンリッチメント解析は、複雑な生物学的データセットから意味のある情報を抽出する効果的な方法を提供する。遺伝子セットの中で有意に過剰発現している語彙を特定することで、研究者は遺伝子が共有する生物学的特徴を明らかにすることができる。濃縮された語彙を抽出することに加えて、結果を生物学的解釈に資する方法で可視化することも重要である。
 ここでは、エンリッチメント解析を実行し、可視化するための新しいウェブサーバーであるFunSetを紹介する。このウェブサーバーは、バックグラウンドセットと比較してターゲットセットに統計的に過剰に存在する遺伝子オントロジーの語彙を特定する。エンリッチメントされた語彙は、語彙間の意味的類似性をキャプチャする2Dプロットに表示される。またスペクトル・クラスタリングによって語彙はクラスタリングされ、各クラスタの代表的な語彙を識別するオプションもある。FunSetは対話的にもプログラム的にも使用でき、ユーザーはエンリッチメント結果を表形式、SVGファイルとしてのグラフ形式、JSONcsvとしてのデータ形式の両方でダウンロードすることができる。分析の再現性を高めるために、ユーザーはオントロジーアノテーションの過去のデータにアクセスすることができる。スタンドアロンプログラムとWebサーバーのソースコードオープンソースライセンスで提供されている。

 

 

webサービス

FunSetにアクセスする。

f:id:kazumaxneo:20210224041326p:plain

 

遺伝子名をカンマ区切りで記載する。ここではexampleデータを入力。

f:id:kazumaxneo:20210223203142p:plain

(遺伝子を指定するためのフォーマットは、ヒトの場合はHGNCシンボル、ウシとイヌの場合はVGNCシンボル、モデル生物の場合はMODシンボル。)

 

エンリッチメント解析には、ターゲットセット(関心のある特性を持つ遺伝子)とバックグラウンドセットが必要。オプションで、バックグラウンドの遺伝子セットをアップロードする。アップロードしなければ、デフォルトでは、FunSetは選択した生物のすべてのアノテーションされた遺伝子をバックグラウンドとして選択する。

f:id:kazumaxneo:20210224041933p:plain

 

Ontologyのバージョンを指定する。

f:id:kazumaxneo:20210224041513p:plain

 

種名を選択する。デフォルトはhuman。

f:id:kazumaxneo:20210224041526p:plain

 

GOのカテゴリを指定する。

f:id:kazumaxneo:20210224041649p:plain

 

FDRを指定してサブミットする。

f:id:kazumaxneo:20210224041708p:plain

 

 

結果が表示されるまで数分かかった。

出力。

f:id:kazumaxneo:20210223203416p:plain

GOエンリッチメント解析結果の視覚化は、類似度インデックスから得られる距離行列上に多次元スケーリング(MDS)を使用して配置される。

 

右上にサマリーが表示される。自動で検出されたクラスタ数は2つだった(2色のプロットがそれぞれのクラスタを表す)。

f:id:kazumaxneo:20210224042319p:plain

 

図はインタラクティブに操作でき、マウスホイールで拡大縮小、左クリックしてドラッグすることでパンできる。語彙のノードを左クリックしてドラッグすれば、ノードを移動できる。

f:id:kazumaxneo:20210223204848p:plain

 

 

クラスタのノードをクリックすると、FDRやエンリッチメントサイズ(ES)などの関連データとともにエンリッチメントされた語彙が表示される。このパネルでは、特定の語彙をクリックすると、SVGグラフ内で赤くハイライト表示される。また、このパネルで語彙をクリックすると、語彙の説明も表示される。

f:id:kazumaxneo:20210223205148p:plain

GO termはAmigoにリンクされている。

 

右上のバーからクラスタ数は任意で変更できる。論文と同じ11に変更した。バーの操作では細かい指定が難しいので、数値を直接タイプする。

f:id:kazumaxneo:20210224042608p:plain

クラスタのサイズの上限は入力された語彙の数になる。ここでは、理屈上は473まで上がる(クラスタリングの意味はなくなる)。

 

結果が反映されるまで10秒程度かかった。各クラスタは自動で色分けされる。基本的にMDSの距離に応じてクラスタリングされているのが分かる。

f:id:kazumaxneo:20210224042733p:plain

 

クラスタのチェックマークを外すと、一時的に透明度を上げることができる。

f:id:kazumaxneo:20210224042937p:plain

 

繰り返しになるが、各クラスタのノードをクリックすると、クラスタを構成している語彙をリストで確認できる(下の写真の右側)。リストはFDRの低い順でソートされており、ノードのサイズはこのFDRを反映している(=> エンリッチ度合いを反映している)。

f:id:kazumaxneo:20210224043905p:plain

 

リスト左端のボタンをクリックすると青くなり、該当するノードが赤枠でハイライト表示される。注釈も付く。

f:id:kazumaxneo:20210224044423p:plain


図ははSVGファイルとしてダウンロードでき、濃縮された語彙と対応する遺伝子は表形式でダウンロードできます。図は現在表示されている領域がダウンロードされることに注意して下さい。

f:id:kazumaxneo:20210224044818p:plain

引用

FunSet: an open-source software and web server for performing and displaying Gene Ontology enrichment analysis
Matthew L. Hale, Ishwor Thapa & Dario Ghersi
BMC Bioinformatics volume 20, Article number: 359 (2019)

 

関連