遺伝子発現プロファイリングは、生物学的プロセスや疾患の理解に多大な貢献をしてきた。しかし、データ可視化ツールやパスウェイ解析ツールの多くは、膨大なデータフォーマットを必要とするため、特にバイオインフォマティシャンでない人にとっては、処理されたデータを解釈して生物学的メカニズムを理解することは依然として困難である。このような課題を回避するために、著者らはオミックス解析の出力をインタラクティブに可視化するSTAGEs(Static and Temporal Analysis of Gene Expression studies)を開発した。ユーザーは、Excelスプレッドシートから作成したデータを直接アップロードし、STAGEsを使用して、ボルケーノプロット、差次発現遺伝子積み上げ棒グラフ、EnrichrおよびGene Set Enrichment Analysis(GSEA)によるパスウェイエンリッチメント解析、確立したパスウェイデータベースまたはカスタマイズした遺伝子セット、クラスターグラムおよび相関マトリックスを表示することができる。さらに、STAGEsはExcelの遺伝子と日付の誤変換を処理し、すべての遺伝子がパスウェイ解析に考慮されることを保証する。出力データの表やグラフはエクスポートでき、スライダー、ドロップダウンメニュー、テキストボックス、ラジオボタンなどのウィジェットを使用して、個々のグラフを簡単にカスタマイズできる。STAGEsは、データ解析、データ可視化、パスウェイ解析のための統合プラットフォームであり、https://kuanrongchan-stages-stages-vpgh46.streamlitapp.com/ で自由に利用できる。また、開発者は、https://github.com/kuanrongchan/STAGES で公開されている既存のコードに基づいて、ウェブツールをローカルにカスタマイズまたは変更できる。
ここではデモデータを使った時の出力について簡単に見ていきます。
https://kuanrongchan-stages-stages-vpgh46.streamlit.appにアクセスする。
ログインの必要はない。バックエンドでPythonプログラミング言語を実行してデータ解析とグラフプロットを行い、フロントエンドでStreamlitフレームワークを使用して出力データのテーブルとグラフを表示することで動作している(マニュアルより)。
左側のメニューからファイルをアップロードする。
対応しているファイルは、生のカウントデータ、log2変換したデータ(正規化も含む)、すでに統計テストを行なって比率とP値になっているデータ、の3種類となる。
カウントファイルの行名はHGNC遺伝子シンボル、列は被験者IDにする。
helpより転載
Pre-processed dataタブでは入力データの正規化を行う。
前処理前後のカウント数(自然対数+1のみ表示)を示すバイオリンプロットが表示される。
メニューのスライダーバーから閾値などを調整できる。
Correlation Matrix
Differential Expression Analysis
ユーザーが定義した倍率変化とp値カットオフ値に基づいて有意差検定を行い、有意な発現変動遺伝子の数をプロットする。
他にも3つのタブが用意されている。
Cumulative Distribution Function
Volcano Plot
DEG identity
Clustergram
Enrichr
データベースとパラメータを選べる。
GSEA preranked analysis
STRING Network Query
Report Generation
全ての結果をダウンロードできる。
引用
STAGEs: A web-based tool that integrates data visualization and pathway enrichment analysis for gene expression studies
Clara W. T. Koh, Justin S. G. Ooi, Eugenia Ziying Ong & Kuan Rong Chan
Scientific Reports volume 13, Article number: 7135 (2023)
関連