オミックスプロファイリングは、生物の行動や環境中の反応を捉えるなど、大規模な生物学的データセットを得るための、ますます顕著なアプローチのcollectionである。このような大規模なデータセットを、プログラミングの経験なしに手作業で解析し、解釈するのは大変なことである。また、データ量の増加に伴い、管理、保存、共有の課題も発生している。
ここでは、オミックスデータを迅速に共同探索するためのウェブベースアプリケーション、SinyOmicsを紹介する。2つのヒト病原体のTn-Seq、RNA-Seq、マイクロアレイ、プロテオミクスデータセットを用いて、豊富なデータセットから導き出されるいくつかの結論を例証した。アミノグリコシドのストレス下で発現が増加するプロテアーゼとシャペロンタンパク質を特定し、同じ作用機序の抗生物質が同様のトランスクリプトーム反応を引き起こすことを示し、異なるオミックスプロファイルの非類似性を指摘し、代謝ネットワークに転写反応を重ねる。
ShinyOmicsはセットアップやカスタマイズが簡単で、ユーザーが提供するメタデータを利用することができる。また、データ管理、オンライン共有、探索だけでなく、新しい仮説の生成を支援するために設計された、いくつかの可視化および比較オプションを提供する。さらに、SinyOmicsは、研究論文やプレゼンテーションに付随するインタラクティブな補足資料として使用することができる。
インストール
#condaを使う。bioconductor-shinymethylの依存関係でpython3.7の環境に導入する
mamba create -n shinyomics python=3.7 -y
conda activate shinyomics
mamba install -c r rstudio -y
mamba install -c conda-forge r-ggplot2 r-heatmaply igraph r-shiny -y
mamba install -c r r-visnetwork r-rcolorbrewer -y
#レポジトリをcloneし、中に入ってRstudioを起動
git clone https://github.com/dsurujon/ShinyOmics.git
cd ShinyOmics/
#rstudioのRコンソール上でshinyHeatmaplyを導入(link)
install.packages('shinyHeatmaply')
start AppからShinyOmicsを立ち上げる。
使い方
4つのパネルが用意されている。
レポジトリより
- Single Experimentパネル::すべての遺伝子の実験値(差分発現(DE)、フィットネスの変化(dW)など)を、遺伝子に関連する他のメタデータに対してプロットする(例えば、必須遺伝子がよりダウンレギュレートされているかどうかを答えるには、X軸のメタデータ変数として必須性を選択する。
Compare 2 Experimentsパネル:ある実験の遺伝子のvalue(DE、dWなど)を別の実験の値に対してプロットする(例:2つの抗生物質が同様の反応を引き起こすかどうかを答えるには、T4_PENをT4_VNCに対してプロットする)。 - Compare All Experimentsパネル:ヒートマップやPCAを用いて、類似性の高い実験群が存在するかどうかを確認する。
- Networkパネル:有意な変化をネットワーク上に重ね合わせ、ネットワークの特性(次数など)と遺伝子データ(DEなどのメタデータ)を比較する。
Single Experimentパネル
このパネルでは、1つのRNA-Seq実験(複数のタイムポイントを含む)調べることができる。中央には散布図が表示される。デモとして使われているのは、10分から240分までの時系列データになっている。タイムポイントが多い場合は、右のチェックボックスで表示するタイムポイントを選択する。
散布図のY 軸は常に DE で、X 軸はドロップダウンメニュー "Variable" からユーザーが選択したメタデータ変数になる。ここではGOのカテゴリーライクな変数が選ばれている。
プロット1つ1つが遺伝子となる。Differentailly Expressed Genes (DEGs)は、|log2FoldChange(experiment/control)|>1 and Bonferroni-adjusted p-value < 0.05を満たすもので、緑になっている(それ以外は黒)。
グラフの関心がある遺伝子(例えばある時点のDEGs)のプロットを囲むと、その遺伝子のリストが下の表に表示される。表は、特定の列でソートしたり、表全体に適用される検索ワードを用いてフィルタリングしたり(表の右上にあるテキストボックスを使用)、特定の列に適用される検索ワードを用いてフィルタリングしたり(個々の列の下部にある検索ボックスを使用)できる。
選択された遺伝子は、右下のBrushed Genesに表示されている。これをコピーして、
左のPaste gene listに貼り付ければ、関心のある遺伝子だけをプロットできる。また、この方法でコピーした遺伝子リストを別のパネルで調べることもできる。
表示する遺伝子をサブセットするもう一つの方法として、「メタデータ変数で遺伝子を選択する」チェックボックスの使用がある。チェックすると、特定のプロパティを持つ遺伝子のみを表示することができるセレクタの新しいセットが生成される。ユーザーはまず、どの変数でサブセットするかを選択し(例えば、sequence prevalence、この遺伝子を共有する株がどれだけあるかを示す)、次にスライダーを使用して非常に一般的な遺伝子(335株以上に存在する)だけをサブセットすることができる(マニュアルより)。
Compare 2 Experimentsパネル
このパネルでは、同じ生物から得られた2つの実験を比較することができる。遺伝子を相互参照するために、両方の実験に同じメタデータファイルが関連付けられている必要がある。
比較する2つの実験を選択する。実験1がX軸、実験2がY軸として表示される。3番目のドロップダウンリスト("Variable")は、色の変数を決定する。
このプロットでは、T4株のペニシリン(PEN)反応とバンコマイシン(VNC)反応を比較している。全体的な発現変化は、90分のタイムポイントで相関しているようである。また、両者でダウンレギュレートされているMETABOLISM遺伝子も多数存在する(マニュアルより)。
パネル1と同様に、このプロットをから特定のプロットだけを選択して、下の表で調べることができる。
Compare All Experimentsパネル
全ての条件下でよりグローバルな比較を行う。
可視化したい株を選択する。
左側のヒートマップは、すべての遺伝子(行)に対して、すべての実験(列)からの実験値(例えば、発現、フィットネス、タンパク質存在量)を表示している。
必要であれば、下のテキストボックスに遺伝子リストを貼り付けて、このヒートマップのサブセットからインタラクティブなヒートマップを表示することができる(Add interactive heatmap for gene selectionにチェックを付ける)。
右側のPCAプロットでは2つの成分を選択し、プロットのカラー変数を選択する。PCAプロットの下のプロットは、各主成分によって説明される%分散を示す。
Networkパネル
任意のネットワークを可視化し、DEGを重ね合わせることができる。
up/down制御された遺伝子はそれぞれ赤/青で表示される。右側の散布図は、ネットワークの特性が遺伝子発現やメタデータとどのように関連しているかを調べるために使用できる。
デモデータ
http://bioinformatics.bc.edu/shiny/ShinyOmics/にアクセスする。
Streptococcus pneumoniaeとMycobacterium tuberculosisのデータセットがプリロードされる。S. pneumoniaeのセットには、2つの株(19FとT4)を5種類の抗生物質(KAN、LVX、VNC、RIF、PEN)で処理したZhu et al 2019のRNA-SeqおよびTn-seqデータが含まれている。M. tuberculosisのデータセットは、Galagan et al, 2013とSchubert et al, 2015からそれぞれ低酸素条件下でのマイクロアレイとプロテオミクススクリーンが含まれている。
引用
ShinyOmics: collaborative exploration of omics-data
Defne Surujon & Tim van Opijnen
BMC Bioinformatics volume 21, Article number: 22 (2020)