Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現サンプルが含まれている。GEOリポジトリのユーザーは、関連するデータセットを見つけるために、研究を記述するメタデータを検索できるが、現在のところ、データレベルでGEOのグローバル検索を容易にする方法やリソースはない。この欠点に対処するため、本著者らはRummaGEOを開発した。RummaGEOは、GEOに寄託されたヒトおよびマウスのRNA-seq研究の大規模コレクションを遺伝子発現シグネチャーを検索できるウェブサーバーアプリケーションである。検索エンジンを開発するために、本著者らはARCHS4から入手可能な一様にアラインメントされたGEO研究からサンプル条件をオフラインで自動同定した。次に、これらの研究から遺伝子セットを抽出するために、差次的発現シグネチャーを計算した。現在、RummaGEOには、23,395件のGEO研究から抽出された135,264のヒトと158,062のマウスの遺伝子セットが含まれている。次に、RummaGEOデータベースの内容を解析し、統計的パターンを同定し、様々なグローバル解析を行った。RummaGEOデータベースの内容は、シグネチャー検索、PubMed検索、メタデータ検索機能を備えたウェブサーバー型検索エンジンとして提供されている。 全体として、RummaGEOは生物医学研究コミュニティにとって、将来の多くの研究のための仮説生成を可能にする、これまでにないリソースを提供している。RummaGEO検索エンジンはhttps://rummageo.com/で利用できる。
manual
https://rummageo.com/usermanual
https://rummageo.com/にアクセスする。主要な3つの検索機能がある。
23,395のGEO研究からのシグネチャーを計算することによって、クエリに一致する最も類似した遺伝子セットを見つける。
1,Gene set検索
遺伝子セット検索ページでは、クエリー遺伝子セットにマッチする遺伝子セットをRummaGEOデータベースから検索することができる。
使用するには1行1遺伝子の形式で遺伝子シンボルのリストを入力する。画像ではヒトのexampleを指定(100遺伝子)。
入力した遺伝子シンボルに基づき、ヒト遺伝子セットコレクションかマウス遺伝子セットとして認識される。
RummaGEOデータベースに含まれる遺伝子セットとクエリ遺伝子セットとの類似度はFisherの正確検定で測定される。有意に重複する遺伝子セットは、付随するメタデータとともにユーザーに返される。
出力例
1番上を見てみる。
左端から、GEOのIDと研究のタイトル、利用可能な場合はPubMed ID(PMID)が表示されている。GEOのIDはGEOにリンクしている。PMIDからはPubMedへジャンプできる。その右には条件1と2のタイトル、誘導か抑制か、解析プラットフォーム、日付、遺伝子セットのサイズ、クエリとの重複数、オッズ、P値、調整後P値、などが並ぶ。
それぞれクリックすると詳細を確認できる。Gene set sizeの数値をクリックした。
表示された遺伝子セットはクリップボードにコピーしたり、ENRICHR(紹介)にダイレクトサブミットする事もできる。さらにこの遺伝子セットをクエリにして再びRummaGEOを実行する事もできる。
Overlapの数値をクリックした。上と同じようにウィンドウ上に遺伝子リストが表示される。
さらに結果を絞り込むには、上の検索バーに特定のキーワードを入れて検索する。macrophagesを入れると最初の29,005ヒットから 3,582ヒットにまで減った。
結果は、検索ウィンドウの右側のボタンからタブ区切り形式でダウンロードできる。
上のタブのCommon terms in Matching Gene setsでは、遺伝子セット検索結果で返されたシグネチャーから最初の5,000のユニークなGSEについて、Fisherの正確検定で計算されたエンリッチメント解析された結果が表示される。
表の上のボタンから、Tissue/cellに切り換えた。macrophagesが最も多い。
グラフの下の表には、エンリッチされたカテゴリーが表示される。
nameをクリックすると、Matching Gene Setsタブに戻り、選択したカテゴリーの遺伝子のセットを見ることができる。
Enrichr Termsタブを選択すると、遺伝子セット検索から返された上位500シグネチャーの中で最もよく出現するEnrichr語彙が表示される。Enrichr Terms は、選択したライブラリ(ChEA 2022、KEGG 2021 Human、WikiPathway 2023 Human、GO Biological Process 2023、MGI Mammalian Phenotype Level 4 2021、Human Phenotype Ontology、GWAS Catalog 2023)のすべての RummaGEO シグネチャーに対して事前に計算されている。
検索結果のタブ(Matching Gene Setsタブ)に戻る。表の右端には、遺伝子セットとRummaGEOシグネチャーのオーバーラップに関する仮説生成のための機能が用意されている。仮説生成ボタンをクリックする。
仮説生成のための説明を入力する必要がある。
RummaGEOは、この説明文と、マッチするRummaGEO遺伝子セットの研究アブストラクト、および複数のEnrichrライブラリ(WikiPathway 2023 Human, GWAS Catalog 2023, GO Biological Process 2023, MGI Mammalian Phenotype Level 4 2021)から重複する遺伝子から上位3つの有意に濃縮された語彙を取得する。このプロンプトは、さらに大規模言語モデル(LLM)に対して、提供されたすべての説明と遺伝子セットのコンテキスト、およびEnrichrからの高度に濃縮された語彙を参照するよう指示する。その後、仮説が解析され、エンリッチメント統計がユーザーの記入した文中に挿入される(マニュアルより)。
2,PubMed 検索
PubMed Search ページでは、PubMed API クエリを用いた PubMed 検索に基づいて RummaGEO の遺伝子セットを検索できる。キーワードを入力して検索する。クエリのワードから関連するGEO研究の論文(最大上位5000件)がサーチされる。結果には、PubMed APIから返された論文と論文数、RummaGEOデータベース内の関連遺伝子セット数が返される。
exampleの”mice aging”で検索した。
出力例
結果は論文ごとにグループ化されている。
補足;画面上に、”クエリにマッチする論文が5,000件以上あるため、クエリから返された最初の5,000件の論文から、遺伝子セットに関連する54件の論文に関連する849件の遺伝子セットのみ表示されました。より良い結果を得るためには、検索条件を絞り込んでください。”と出ている。
その論文の条件ごとの誘導/抑制された遺伝子リストを見るには、右端の矢印をクリックする。
展開すると2つのGEOが折り畳まれていた。この研究では1つGEOのみ含まれ、それが抑制と誘導に分かれて表示されていた。右端のVIEWをクリックすると、上の画像のように含まれる遺伝子リストを表示できる(UPの17遺伝子)。
3,Metadata検索
このタブでは、データベースに含まれるGEO研究のメタデータを直接検索することができる。
出力例
引用
RummaGEO: Automatic Mining of Human and Mouse Gene Sets from GEO
Giacomo B. Marino, Daniel J. B. Clarke, Eden Z. Deng, Avi Ma’ayan
bioRxiv, Posted April 13, 2024.