マイクロアレイデータは、生物学者が複数の表現型にわたって差次的に発現した遺伝子(DEG)を抽出することを可能にする。マイクロアレイ解析のためのパイプラインやツールはいくつか存在するが、それらは中級から上級の計算理解者を対象としており、使いやすく、インタラクティブでダイナミックな解析手法と包括的な学習リソースを備えていないのが実情である。本研究では、学習環境においてトランスクリプトームマイクロアレイデータ解析をより身近にし、重要な病理学的バイオマーカーの同定を可能にする対話型アプリケーション「sMAP」(Standard Microarray Analysis Pipeline)を開発した。大腸ガンを対象とした事例では、sMAPによって過去の知見を再現し、関連するパスウェイを発見できることを示した。sMAPは、初期段階の研究者を支援するためのチュートリアルと学習用ドキュメントを包括的に提供している。sMAP のホスティング、チュートリアル、頻繁に更新されるドキュメントの最新 URL は、https://github.com/BI-STEM-Away/sMAP で確認することができる。
HP
https://bi-stem-away.github.io/sMAP/
Documentation
https://bi-stem-away.github.io/sMAP_doc/
HPより
sMAPは、マイクロアレイ解析のステップを通して、標準的なトランスクリプトームパイプラインを理解するために作られました。sMAPは、GEOデータセットをアップロードし、品質管理、統計解析、機能解析の機能を調べ、バイオマーカー候補を見つけるためのインタラクティブなユーザーインターフェイスを備えています。
GitHubアプリのドキュメント
sMAPの開発チームは、バーチャルインターンシップのプラットフォームであるSTEM-Awayを通じて集められました。私たちのチームは、STEM-Awayのバイオインフォマティクスパスウェイの参加者で構成されており、R Shiny Appプロジェクトに挑戦することを希望していました。私たちは5つのグループに分かれ、それぞれトランスクリプトームパイプラインのコード開発、R Shinyでのコード実装、R Shiny Appのレイアウトフォーマット、GitHubとコードのドキュメント管理、そしてこのGitHubページとドキュメントサイトの制作を担当しました。STEM-Awayの詳細については、以下のリンクを参照してください。
https://www.linkedin.com/company/stemaway/
sMAP Webserver 1
http://ec2-3-131-158-100.us-east-2.compute.amazonaws.com/にアクセスする。
生のCELファイルをtar ballにしてアップするか、生のカウントデータをアップロードする。イルミナBeadArrayの IDATとmanifest (.bgx)ファイルやNCBI GEO(Gene Expression Omnibus)のアクセッションも指定できる。
ここではdemo dataを選択した。
Demo dataはDownloadボタンからダウンロードも可能。
Demo_Metadata.csv。CancerとNormalの2つのグループからなる。
左のメニューから選んで進めていく。
QC & Preprocessing
Normalized unscaled standard errors (NUSE) 、Relative log expression (RLE)、PCA、Boxplotsから選ぶ。
PCA
Normalization
RMA、GCRMA、MAS5から選んで正規化する。正規化方法を選んでBegin Normalizationボタンをクリックする。
RMA正規化はGene ST ArrayおよびExon ST Arrayのみ使用可能。
Batch Correction & Visualization
バッチ補正は、機器や実験の違いを補正する。それから、データがどのように変化したかを視覚化して確認できる(画像の下半分)。
バッチ補正は、さまざまな数のバッチを使用する場合に便利です。バッチ補正は、装置や実験の違いを補正することで、2つのバッチを互いに比較できるようにします。その結果、バッチ補正後、2つのバッチを同じ分析に使用することができます(helpより)。
注;バッチ/アーチファクトが何であるか分かる場合、limma/voomなどはそれらを行列の項として含むモデル行列を構築して比較することができる。
Potential Outliers
3つの異なる方法を用いて外れ値を調べる事ができる。outliers()関数が使用される。
Statistical Analysis
カットオフのlogFCとP値を指定してDEGsを取り出す。最初に、遺伝子のパーセンテージを指定する。これは、発現レベルが低いためにフィルターにかけられる遺伝子の割合を意味する。重複やNAの遺伝子記号も削除される。
最初に、どのメタデータ機能を比較したいかを選択する。
limma packageを使ってDEGsを計算する。フィルタリングする遺伝子のパーセンテージ、カットオフのlogFCとP値を指定する。
ボルケーノプロット。トップDEGsは注釈が付けられる。
Enrichment analysis
KEGG pathway enrichment analysis
Gene Ontology Analysis
Gene-Set Enrichment Analysis
進めた条件ではエラーになった。
データのダウンロード方法が分かりませんでした。まだプレプリントなので、今後バージョンアップして対応するのかもしれません。
引用
sMAP: An interactive microarray data analysis tool for early-stage researchers
Samuel Bharti, Nikita Krishnan, Arian Veyssi, Maryam Momeni, Sneha Raj
bioRxiv, Posted May 29, 2022