macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

データを可視化するwebツール PlotsOfData

2019 4/11  twitterリンク追記

 

 近年、いくつかのグループが、データの要約ではなく実際のデータをグラフで表示することを提唱している[ref.1-4]。生データは、ヒストグラムやドットプロットなど、さまざまな方法で視覚化できる。データ解釈を補助するにはデータ要約が表示されてもよい。さらに、95%信頼区間(95CIs)が与えられている場合、異なるカテゴリー/条件の直接比較は「視覚的推論」によって行うことができる[ref.5,6]。

 データとその要約を引き出すために、いくつかの市販のソフトウェアパッケージが利用可能である。しかしながら、理想的には、そのようなツールはオープンソースで、自由に利用可能で、そしてユーザによる貢献または修正を可能にするべきである。生データと要約の組み合わせをプロットするための無料のオープンソースWebベースアプリケーションの一例はBoxPlotR(http://shiny.chemgrid.org/boxplotr/)である。 このWebベースのアプリは非常によく引用されている論文[ref.7 link]に記載されている。その人気は、publication品質のデータ視覚化を生成する使いやすいアプリケーションに対する要求を反映している。ただし、この人気のあるオンラインツールはデータの要約としてボックスプロットに偏っており、データと要約の組み合わせ表示をカスタマイズするためのオプションはほとんどない。さらに、プロットは外観がかなりベーシックになっている。

 Rのパッケージggplot2を使用すると、最先端のデータの視覚化が可能になる。これは、「grammar of graphics」のアイデアを使用して、複数のデータ層を使用してグラフィックを生成する[ref.8]。マルチレイヤーアプローチにより、個々のコンポーネントからグラフを作成することができる。各コンポーネントは個別に調整できる。データレイヤーに透明度を適用するオプションは、柔軟性を増す。それでも、ggplot2によって提供される高品質のデータ視覚化には、コーディングスキルときちんとしたデータの概念を理解することが必要になる[ref.9]。

 生データの統計サマリーを伴った最先端のデータ視覚化方法を民主化するために、PlotsOfDataと名付けたWebツールを作成した。 このWebツールは通常のスプレッドシート(​​ワイド)formatおよびtidy data formatでデータを処理し、ggplot2を使用してグラフを作成する。PlotsOfDataを使ってグラフを作成するのにコーディングスキルは必要なく、ggplot2によって提供される高品質のデータ視覚化は誰にでも利用できる。 

 PlotsOfDataはhttps://huygens.science.uva.nl/PlotsOfData/でオンラインで利用できる。 アプリはshinyパッケージを使用し、R(https://www.r-project.org)とRstudio(https://www.rstudio.com)を使用して、Rで書かれている。 いくつかの無料で入手可能なパッケージ(shiny、ggplot2、dplyr、tidyr、readr、magrittr、ggbeeswarm、readxl、DT)を使う。 現在のバージョン(v1.0.5)のソースコードはzenodoにアーカイブされている:https://doi.org/10.5281/zenodo.2582567。 

PlotsOfData R / shinyスクリプトGithubhttps://github.com/JoachimGoedhart/PlotsOfData)からダウンロードすると、WebアプリケーションをRまたはRstudioから起動してオフラインで使用できる。

 

Github

 

twitter

 

ブログ

Leaving the bar in five steps
Posted by Joachim Goedhart on March 24th, 2017

Leaving the bar in five steps - the Node

f:id:kazumaxneo:20190331131119j:plain

Goedhartさんのブログより転載

 

動画

PlotsOfData: basic functions

 

使い方

ここではオンラインでの流れを簡単に説明する。

https://huygens.science.uva.nl/PlotsOfData/ にアクセスする。

f:id:kazumaxneo:20190331114423j:plain

 

左のメニューのUpload Fileからデータをアップロードする。

f:id:kazumaxneo:20190331123345j:plain

 

以下のformatに対応している。

f:id:kazumaxneo:20190331114542j:plain

 

ここではexampleファイル1を使う。

f:id:kazumaxneo:20190331115639j:plain

3列 x 100行程度の行列ファイルになっている。1行目が名前で、"B_lo"、"A_hl"、"C_med"がある(空白や特殊文字は避ける)。

 

plotのタブに切り替えると入力データが瞬時にグラフにplotされ、データが視覚化される。

データのオフセット(wiki)は4種類から選べる。

擬似ランダム

f:id:kazumaxneo:20190331122903j:plain

ランダム

f:id:kazumaxneo:20190331122909j:plain

None (Stripes)

f:id:kazumaxneo:20190331122920j:plain

None(データ数が少ない時に使う)

f:id:kazumaxneo:20190331122922j:plain


統計に関する情報もその場で視覚化できる。Statisticsメニューから選択する。

中央値

f:id:kazumaxneo:20190331123635j:plain

平均値

f:id:kazumaxneo:20190331123638j:plain

ボックスプロット(wiki

f:id:kazumaxneo:20190331123729j:plain

バイオリンプロット(wiki

f:id:kazumaxneo:20190331123642j:plain

バイオリンプロットなら箱ひげ図の情報に加え、データ分布の形状もわかる。ピークが複数あるデータセットにも有効。

 

95%信頼区間(95CIs)

f:id:kazumaxneo:20190331125401j:plain

 

Order of the conditionsからはサンプルの順番を変更できる。

f:id:kazumaxneo:20190331124401j:plain

A、B、Cの順にした。

 

Plot Layoutからレイアウトを変更できる。

時計回りに90度

f:id:kazumaxneo:20190331124519j:plain

グリッドラインを消し、縦軸をlogスケールに変更

f:id:kazumaxneo:20190331124638j:plain

Use color for the dataでプロットにカラーをアサイン 

f:id:kazumaxneo:20190331124726j:plain

 

色はColourから変更する。

f:id:kazumaxneo:20190331125558j:plain
Rの対応範囲内で、ユーザー定義の色に変更することも可能。

f:id:kazumaxneo:20190331125155j:plain

16進カラーでも指定できる。

 

Labels/captionsからはタイトル名追加、font size変更などを実行できる。

f:id:kazumaxneo:20190331125952j:plain

 

最後に図のサイズを指定する。作成した図はpngかpdfでダウンロードできる。

f:id:kazumaxneo:20190331130050j:plain

 

Data Summaryタブからは表形式でデータを要約できる。

f:id:kazumaxneo:20190331130254j:plain

 

引用

PlotsOfData—A web app for visualizing data together with their summaries
Marten Postma, Joachim Goedhart
PLOS Biology March 27, 2019

 

関連