NCBI GEO のRNA-seqデータを分析する GREIN - macでインフォマティクス

　RNA-seqデータセットをGene Expression Omnibus（GEO）およびSequence Read Archive（SRA）のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新しい研究のデザインを知らせるために日常的に使用されてきた。しかし、GEO RNA-seqデータの再利用は、バイオインフォマティクスに特化していない生物医学研究者には、しばしばアクセスできない処理プロトコルおよび分析ツールの複雑さによって困難になっている。

　GEO / SRA RNA-seqデータの再処理における最近の取り組みは、処理済みおよび転写産物ごとにまとめられた多数のRNA-seqデータセットへのアクセスを提供することによってこの問題を軽減する。他のリソースは特定のデータセットのためのアクセスと分析ツールを提供する（ref.11, 12）。これらのプラットフォームは非常に便利だが、ダウンストリーム分析用の追加機能はサポートされていない。例えば、探索的データ分析、バッチ効果調整を伴うdifferential expression分析、または統計的出力分析（論文表1）。したがって、公共のRNA seqデータの再分析のための包括的な分析ツールボックスを備えたオープンソースのユーザーフレンドリーなツールはまだ欠けている。 GEO RNA-seqデータの分析のためのGEO RNA-seq Experiments Interactive Navigator（GREIN）ウェブツールを開発、展開することによってこの問題に対処する。分析ツールの豊富なレパートリーに加えて、GREINは分析の準備ができた> 400,000サンプルで6,500以上の均一に処理されたヒト、マウス、およびラットGEO RNA-seqデータセットへのアクセスを提供する。これらのデータセットはGEOから取得され、バックエンドのGEO RNA-seq実験処理パイプライン（GREP2）によって一様に再処理された。このパイプラインはまた、各データセットのメタデータを管理し、各サンプルにMetaSRAが提供する生物医学的オントロジーでアノテーションを付ける。新しい研究がGEOに含まれるにつれて、より多くのデータセットが定期的に処理されてGREINに追加される。前処理済みのデータセットとは別に、GREINは、ユーザーが要求したGEO RNA-seqデータセットのオンザフライ処理も容易にする（表1）。また、GREP2をRパッケージとして、GREINをDockerコンテナとしてリリースする。

　GREINの概念的な概要を論文図1に示す。個々のRNA-seqデータセットはGREP2パイプラインによって処理され、R Expression Setsとしてローカルに保存される。ユーザーはGREINグラフィカルユーザーインターフェース（GUI）を介して前処理済みのデータセットにアクセスして分析するか、まだ処理されていないデータセットの処理を依頼することができる。 GUI駆動のワークフローは、データの検査と視覚化、統計分析、転写シグネチャ構築、およびDE genesのシステム生物学的解釈を容易にする。 GREINとバックエンドパイプライン（GREP2）はどちらもRで書かれており、それぞれDockerコンテナとRパッケージとしてリリースされている。 GREINのグラフィカルユーザインタフェースは、Rで動的Webアプリケーションを構築するためのWebフレームワークであるShinyに実装されている。https://shiny.ilincs.org/greinのWebインスタンスは、ロードバランスのとれたShinyサーバの堅牢なDocker群を介してデプロイされる。処理パイプラインを含む完全なGREINインフラストラクチャはDockerコンテナを介して展開される。
GREINのユーザーフレンドリーなGUI主導のワークフローは、品質管理対策の検査や全データセットにおける発現パターンの視覚化、将来の実験の実験デザインを知らせる目的でのサンプルサイズおよび検出力分析、などのRNA-seqデータの典型的な再利用シナリオ、differential gene expression、 gene list enrichment、およびネットワーク分析を容易にする。標準的な2群間比較の他に、differential gene expression解析モジュールは共変量またはバッチ効果を説明するための一般線形モデルでのフィッティングもサポートする。実装されたインタラクティブな可視化および探査ツールは、クラスター分析、インタラクティブヒートマップ、主成分分析（PCA）、t-distributed stochastic neighbor embedding（t-SNE）などを含んでいる（論文補足表S1）。ユーザーは、MetaSRAプロジェクトによって提供されたヒトRNA-seqサンプルとデータセットのオントロジーアノテーションを検索することもできる。処理された各ヒトRNA配列サンプルは、疾患オントロジー、細胞オントロジー、実験因子オントロジー、Cellosaurus、およびUberonを含む生物医学オントロジーのMetaSRAマッピングで標識される。Differential gene expressionの生物学的解釈は、遺伝子リストおよび pathway enrichment analysis、ならびにDE genesのネットワーク分析などの典型的な事後分析を実施するための他のオンラインツールへの直接リンクによって補助される。これらの分析用ウェブサービスへの接続は、DE genesのシグネチャ（すなわち、分析された全ての／上方／下方制御された遺伝子についての遺伝子発現の平均変化および関連p値リスト）をiLINCS（ref.17）(Integrative LINCS) にサブミットすることによって実施される。 iLINCSは最近リリースされたConnectivity Map L1000シグニチャ（ref.18）のシグニチャ接続性分析も提供する。 GREIN解析のワークフローに関する詳細な手順は、GREINの補足資料および「ヘルプ」セクションに記載されている。

Help

http://www.ilincs.org/apps/grein/?gse=

ローカル環境での実行

docker pull ucbd2k/grein
docker run -d -p 3838:3838 ucbd2k/grein

http://localhost:3838 にアクセスする。

web版

https://shiny.ilincs.org/grein にアクセスする。

どれか１つアクセスしてみる。１ページ目に表示されていた人のRNA seqGSE100027をクリックした。

f:id:kazumaxneo:20190601234755p:plain

必要なほとんどの情報がコンパクトにまとめられている。

f:id:kazumaxneo:20190602001314p:plain

１、メタデータ

f:id:kazumaxneo:20190601235721p:plain

２、Counts table

Rawかnormalizedを選んで表にできる。

f:id:kazumaxneo:20190601235736p:plain

表は左のボタンからダウンロードできる。

３、QC report

MultiQCを使ってQC結果はまとめられる。

f:id:kazumaxneo:20190602004115p:plain

f:id:kazumaxneo:20190602004732p:plain

f:id:kazumaxneo:20190602004119p:plain

f:id:kazumaxneo:20190602004129p:plain

f:id:kazumaxneo:20190602004157p:plain

f:id:kazumaxneo:20190602004737p:plain

f:id:kazumaxneo:20190602004210p:plain

f:id:kazumaxneo:20190602004244p:plain

f:id:kazumaxneo:20190602004323p:plain

f:id:kazumaxneo:20190602004754p:plain

４、Visualization

多くの図はインタラクティグに操作して編集できるようになっている。

相関プロット

f:id:kazumaxneo:20190602000523p:plain

どの図も左のDrawボタンを押すまで描画は開始されない。

密度プロット

f:id:kazumaxneo:20190602000136p:plain

ヒートマップ

static

f:id:kazumaxneo:20190602000141p:plain

interactive

f:id:kazumaxneo:20190602000147p:plain

2D PCA plot

f:id:kazumaxneo:20190602000158p:plain

3D PCA plot

f:id:kazumaxneo:20190602000216p:plain

2D PCA plot

f:id:kazumaxneo:20190602000224p:plain

3D PCA plot

f:id:kazumaxneo:20190602000228p:plain

Analyze dataset

一番上のタブから選択する。

Analyze datasetはパワーカーブとDEG検出のは2つから構成されており、DEG検出を目的としたRNA-seq実験を計画する際の必須ステップである検出力分析についてユーザーを支援する。

１、パワーカーブ
BioconductorパッケージのRNASeqPowerを使用してpowerを計算する。

f:id:kazumaxneo:20190602110455p:plain
検出力曲線

biological coefficient of variation（BCOV）vs average log2(Counts per million)プロット。

f:id:kazumaxneo:20190602005927p:plain

選択された関心のある因子に基づいて差別的に表される各遺伝子の検出可能性に関するアイデアを与える。False discovery rate およびDEGsの予想数に基づいて有意水準を推定する。また、遺伝子を検索してその遺伝子の位置を確認したり、遺伝子記号を表示する点の上にマウスを移動することもできる。

f:id:kazumaxneo:20190602005932p:plain