2022/06/10 追加
Gene Expression Omnibus (GEO) は、一般に公開されているハイスループットな遺伝子発現データのかなりの割合をホストしているデータベースリポジトリである。遺伝子発現解析は、サンプルグループ間の生物学的および表現型の違いの根底にあるメカニズムやプロセスを洞察するための強力なツールである。しかし、遺伝子発現データセットへのアクセス、解析、統合は容易ではなく、特定の専門知識とプログラミングの熟練が必要である。GEOexplorerウェブサーバは、科学者がプログラミングの知識を必要とせずに、遺伝子発現データセットにアクセスし、統合し、分析できるようにするために開発された。ユーザーフレンドリーなグラフィックインターフェースにより、ユーザーはGEOexplorerを使用して、マイクロアレイやRNA-seqデータセットの対話的で再現性のある遺伝子発現解析を簡単に実行することができる。ウェブサーバーでは、GEOからのデータセット検索や取得のほか、ユーザーが作成したデータのアップロード、2つのデータセットの結合と調和による共同解析が可能である。
https://geoexplorer.rosalind.kcl.ac.ukで公開されているGEOexplorerは、、マイクロアレイおよびRNA-seq遺伝子発現データのインタラクティブで再現性のある解析を行うためのソリューションを提供し、生命科学者が情報科学の知識がなくてもその場で探索的データ解析および遺伝子発現差解析を行うことができるようにするものである。
Tutorial(上のメニューから選択)
Bioconducter
(ローカルの計算機で起動する手順も説明されています)
チュートリアルで使用する手順は詳しく説明されています。ここでは簡単に見ていきます。
https://geoexplorer.rosalind.kcl.ac.uk/にアクセスする。
デモデータを見てみる。上のメニューからExample Datasetsに移動し、Loadボタンをクリックする。exampleデータがロードされる。
データのダウンロードボタンも用意されている。
exampleデータが読み込まれた。
スペースシャトルで13日間宇宙飛行させたマウスの胸腺組織のマイクロアレイ解析データとなっている。対照群は地上の動物飼育施設に収容された年齢と性をマッチさせたマウス(個体が異なるのでunpaired)。2010年に公開されている(link)。
実際のGEOの登録データを見る場合、ここで解析したいGEOアクセッション・コードを選択する。singleなら1つの登録データを、combineなら複数の登録データを読み込むことができる。マイクロアレイやRNA seqのデータはローカルからアップロードすることもできる。それから、プラットフォームを選択し、データセットにマイクロアレイデータまたはRNA-seqデータが含まれているか選ぶ。GEOexplorerがRNA-seqデータの遺伝子発現解析を行うためには、が変換されたカウントではなく、生のカウントを含んでいる必要がある。対数変換やCounts per million変換を行わないを選ぶ。counts per million変換は、RNA-seqデータセットでのみ利用可能。マイクロアレイデータセットの場合、代わりにKNNを使用して欠損値を埋めるかどうかを選択することができる。
下の3つのタブでも情報を切り替えられる。
メタデータ情報タブ
発現行列タブ
(マニュアルより)小数点以下が0でない値やマイナスの値がある場合は、RNA-seqデータセットがすでに変換されており、遺伝子発現の差異分析に使用すべきではないことを示す。
1、探索的データ解析
1、Exploratory Data Analysis
グラフはインタラクティブに操作可能。
(マニュアルより)プロットが釣鐘型パターンを持つ正規分布密度曲線を含む場合、RNA-seqデータセットがすでに変換されており、遺伝子発現差解析に使用すべきではないことを示す。
3D
箱ひげ図
(マニュアルより)最低値が0以上(例:正の数)であることが必要。プロットが負の値または中央値を含む場合、RNA-seqデータセットがすでに変換されていることを示し、遺伝子発現差解析に使用すべきではない。
PCA Scores Plot
PCA Individuals Plot
Mean Variance Plot
Heatmap Plot
PCA Variables Plot
3D PCA
UMAP Plot
2、Differential Gene Expression Analysis
(マニュアルより)RNA-seqに変換されたデータが含まれていない場合、遺伝子発現解析の差分を取ることができる。1の探索データ解析時にlog変換やcounts per million変換を行った場合でも、GEOexplorerはlog変換やcounts per million変換されていないデータを使用する。
グループ 1 に含めたい実験条件をクリックして選択する(下の図では50表示にしてOMN全部)。
その下の方で、グループ 2を選択する。ここでは残り全て。
(マニュアルより)適用したいP-value調整法を選択する。Limma のprecision weightを適用するかどうかを選択する(RNA-seqデータセットでは、lmma precision weightsは常に適用されるべき、マイクロアレイデータセットでは、Mean-Variance Plotサブタブから確認できるように、強い平均-分散傾向がある場合にlimma precision weightsを適用することが推奨される)。それから、正規化を強制するかどうかを選択する。RNA-seqデータセットでは、常に強制正規化を適用する必要がある。マイクロアレイデータセットでは、Box-and-WhisperPlot、Expression Density Plotおよび3D Expression Density Plotサブタブからデータセットが正規化されていない場合、強制正規化を適用する必要がある。有意水準カットオフ値を選択する。このカットオフ値は、2つのグループ間で発現不足の遺伝子と発現過剰の遺伝子を識別するために使用される。解析ボタンをクリックし、遺伝子発現差解析を実行する。
出力
上位250のDEGの統計量を含む表。
適切なP-valueの調整が使用されたかどうかを示すヒストグラム
差次的に発現した遺伝子を表示するプロット。
3、Gene Enrichment Analysis
遺伝子記号を含むカラムを選択し、 遺伝子エンリッチに使用するデータベースを選択する。最後に一番下のAnalyzeをクリック。
エンリッチメント解析の結果
チュートリアルの後半では、NCBI GEOのftpからデータをダウンロード後、GEO count matrix ファイルを GEOexplorer にロードできる遺伝子発現ファイルテンプレート形式にexcel上で変換する手順について説明されています。エラーが起きる方は確認してみて下さい。
引用
GEOexplorer: a webserver for gene expression analysis and visualisation
Guy P Hunt, Luigi Grassi, Rafael Henkin, Fabrizio Smeraldi, Thomas P Spargo, Renata Kabiljo, Sulev Koks, Zina Ibrahim, Richard J B Dobson, Ammar Al-Chalabi, Michael R Barnes, Alfredo Iacoangeli
Nucleic Acids Research, Published: 24 May 2022
関連
GEO2R(統合TV)
”NCBI GEO (Gene Expression Omnibus)はNCBIが提供・維持管理している遺伝子発現情報のデータベースです。GEOに登録されているマイクロアレイ実験のデータを、フリーのデータ解析環境 R をベースに解析できるツール GEO2Rの使い方を紹介します。 ”