近年のハイスループット(メタ)トランスクリプトミクスやプロテオミクスの分野では、単一の遺伝子やタンパク質だけでなく、拡張された生物システムを探索するための簡便で迅速な方法が求められている。遺伝子セットエンリッチメント解析は、遺伝子セット内の関連性を発見し、ハイスループットなデータから得られる結果の生物学的意味を明らかにするためによく利用される。遺伝子セットエンリッチメント解析の基礎となるのは、遺伝子の確かな機能分類である。ここでは、一般に公開されている全細菌ゲノム(>55 000)の遺伝子の複数の機能分類を含む包括的なデータベースについて説明する。COGやGOといった最も一般的な機能分類に加え、KEGG、InterPro、PFAM、eggnog、オペロンなどの分類もサポートされている。新しく配列決定された細菌ゲノムは機能分類のデータがない場合が多いので、タンパク質のアノテーションと分類を高速に行うこともできる。ウェブサーバーFUNAGE-Proは、あらゆる原核生物の種や株の単一遺伝子セット、複数実験、時系列データ、クラスター、遺伝子ネットワークモジュールについて高速に機能解析を行うことができる。FUNAGE-Proは、http://funagepro.molgenrug.nl で自由に利用できる。
manual
http://funagepro.molgenrug.nl/gsea-pro.manual.html
(ローカルにインストール手順も説明されています)
http://funagepro.molgenrug.nl/にアクセスする。
まずリファレンスを選択する。RefSeq と Genbank の locus-tag は異なるので、どちらのlocus IDを使っているのか注意する。
ここではRefSeq ゲノムの遺伝子IDを使っているとする。タイプすると候補が表示される。
選択した。正しくヒットした場合は、入力欄の下に青いバーで表示される。
続いてlocus-tagsを入力する。4種類の入力に対応している。exampleデータで見てみる。
1、Single list of locus-tags;locus-tagsのリスト。1行目にヘッダーは不要。
2、Single list with values;2列のリストで、1列目がlocus-tags、2列目がDifferential Gene Expression (DGE)解析で得られるfold changeの値。1行目のヘッダーは、1列目がlocus、2列目がユーザが決めた名前。
3、Multiple experiments;時系列など複数の実験結果のリスト。1列目にはlocus-tagsを、他の列にはすべての実験の値を記述する。1行目のヘッダーは、1列目がlocus、2列目以降がユーザが決めた名前。
4、Clusters or Modules;k-meansなどのクラスタリング解析やモジュール発見ツール(遺伝子ネットワーク再構築など)から得られる結果。
excelで見てみる。1列目にlocus-tags、他の列にはすべての実験の値、最後の列にはクラスター番号が記載されている。1行目のヘッダーは、1列目がlocus、2列目以降がユーザが決めた名前。クラスター番号列は、ヘッダーを"clusterID"にする。
閾値のカットオフを設けて自動で結果をフィルタリングするには、右端のチェックを付ける。
ON:FUNAGE-Proが閾値を推定する。
最後にデータの解析方法を選択する。1か2のリストならsingleを選ぶ。3の複数値があるリストならexperimentを選ぶ(実験が1つだけの場合は非推奨)。4のリストならCLustersを選ぶ。ヘッダーのclusterIDのカラムが遺伝子のグループに使用される。
クリックすると解析がスタートする。
出力例 (single)
エンリッチされたtermが表示される。
COGやGO、KEGG、PfamやeggNOG_COGなど切り替えることが可能。
表にはエンリッチされたtermとカテゴリー、termの記述、0-9のスコアが表示される。その右にはヒット数/カテゴリーのサイズが表示されている。
表の上のチェックを付けると超幾何分布の検定とBenjamini-Hochberg多重検定補正の調整後のp値も表示される。検出された遺伝子を表示するチェックもある。
KEGGの場合はpathwayにリンクしている。
結果を視覚化することもできる。
図はインタラクティブに操作できる。要素をクリックすると右に詳細が表示される。
Multiple experimentの出力例
Clusters or Modulesの出力例
図と表はダウンロードできる。
その場でアノテーションを付ける
FUNAGE-Proデータベースにないゲノムについては、FACoPウェブサーバを利用してタンパク質の分類を行うことが可能。この機能も見ておく。
タンパク質配列を指定する。
最大10,000個のタンパク質のアノテーションを受け付ける。大規模なプロジェクトでは、スタンドアロン版(Linuxのみ)を使用する。
アノテーション出力例
アノテーションはダウンロード可能。さらに、この結果をもとに遺伝子セットエンリッチメント解析を行うことができる。その場合は上の画像の”Use this Annotation~”をクリックする。
論文ではデータベースの紐づけなどの方法、エンリッチメント解析と多重検定の補正について書かれています。興味がある方は確認して下さい。
引用
FUNAGE-Pro: comprehensive web server for gene set enrichment analysis of prokaryotes
Anne de Jong, Oscar P Kuipers, Jan Kok
Nucleic Acids Research, Published: 31 May 2022
関連