2023/06/20 誤字修正
データの可視化技術は、技術の進歩とともに大きく向上してきた。データをグラフで表現することで、その背景にあるデータ構造をより透明化し、解釈しやすくする。しかし、自由に利用できる一般的な可視化ツールは、記述統計のみをサポートし、メタ情報を組み込むことができないため、情報提供の範囲はまだ限られている。さらに、統計解析の実行と報告において、受け入れ可能な科学的基準を促進する必要性がある。PlotSは、統計解析を単一のワークフローに統合することができる可視化中心のWebベースアプリケーションである。現在のバージョンでは、8種類のグラフ(bar、box、密度、度数ポリゴン、ヒストグラム、line、scatter、violin)と4種類の統計手法(T検定、ANOVA、ウィルコクソン検定、Krushkal-Wallis検定)を備えている。PlotSはデータ分析に特化した可視化のために多くの有用なカスタマイズオプションを提供する対話型アプリケーションである。グラフにメタ情報を組み込んだり、多変量データ解析のために、2次Y軸の有無、サイドグラフ、インセットグラフ、facetingによるレイヤーの追加をサポートしている。反復有りか無しのデータを問わず、さまざまなデータ形式を扱うことができ、推計統計学( inferential statistical analysis)をグラフに組み込むことができる。必要な統計結果は、推論や報告のために明示的に表示される。PlotSは、https://plots-application.shinyapps.io/plots/ で自由に利用できる。PlotSがデータの可視化や解析に役立つツールであり、研究や教育における適切な統計手法の普及を促進することが期待される。
https://plots-application.shinyapps.io/plots/_w_1c8cff8b/#!/にアクセスする。
Visualize~を選択。
Visualize & analysis
ファイルを選択する。
ファイルフォーマットとして、CSV、TSV、エクセルファイル(xls、xlsx)、データフォーマットとして、ロングフォーマットとワイドフォーマットをサポートしている。
HPに掲載されているワイド型とロング型のテーブル例(HPより転載)。ワイド型はexcelでよくあるデータ型で、縦横共に同じ情報が直線上に並んでいる。そのため人間が直感的に理解しやすい。しかし、多くの属性が存在するデータセットでは、観測値が全てのサンプルには必ずしも存在しない可能性もあり、データが不在のセルが、NAなのか、NaNなのか、nullなのか区別が付きにくい(*1)。一方でロング型では1行に1つの属性と値を記録するため、観測値がない行は不要になる。これにより使用メモリも節約できる。さらに、ワイド型では新しい属性を追加すると列が増えてコマンドやアプリ側も修正が必要なのに対し、ロング型では新しい観測値を追加されても行数が増えるだけで列数は変化がない。このように、データの追加や欠損値の存在に頑強であり、計算機にとって扱いやすいことがワイド型よりロング型の方が使用が推奨される理由と考えられる。
PlotSでもロングフォーマットのデータの使用を推奨している。
ここではirisデータセットを使う。RのコンソールからCSV形式で書き出す。
> write.csv(iris, file = "iris.csv", row.names = FALSE)
ロングフォーマットに指定してiris.csvを読み込んだ。
反復が正しく認識されない場合、反復がどのグループに属するか指定する必要がある。
準備ができたらGraphに移動する。
Graphでは8種類のグラフを描画できる。写真はbox plot。
Y.axisからY軸の変数を変更した。
Add colorから、Speciesに対して色を設定した。
統計的仮説検定もその場で実行できる。ここではPetal.widthについて種間で有意な差があるか検定を行った。t.testでstudent's testを選択、個体が違うので対応がないデータを選択、多重検定補正はbonferroniを選択、その下のメニューからリファレンスとの比較を選び、左端をリファレンスとして、リファレンス間との比較のみ行った。帰無仮説が棄却され、有意差があると判定されたペアにはシンボルをプロットした。
様々な統計手法を利用できる。
図は右上のボタンから様々なフォーマットでダウンロードできる。デフォルトでは図の解像度は200 dpi、サイズは4*4 インチとなっているが、ダウンロードボタン左の3つのboxに数値を入力することで変更できる(テスト時は指定するとエラーを起こした)。
図の下にあるパネルを使うと、図のフォントサイズなどを変更できる。
violin plotに変更した。add layerからjitterplotも追加した。
他にも様々なグラフを利用できます。
サマリータブでは、データおよび統計解析のサマリー情報を閲覧できる。
様々な統計量や密度分布など貴重な情報がまとまっている。統計的仮説検定を実行する時はこまめに確認した方が良いと考えられる。
helpより
-
PlotSでは、サンプルサイズが5000未満の場合はShapiro-Wilkの検定を、それ以外の場合はKolmogorov-Smirnovの検定を使用する。
-
効果量の推定は、さまざまなRパッケージを用いて行いている。T検定とANOVAの効果量の推定には、Rのeffectizeパッケージを使用。
-
rstatixパッケージは、Wilcoxon検定とKrukal-Wallis検定の効果量を測定するために使用される。
-
セッション終了後、すべてのユーザーデータは削除される。
コメント
一部、ダウンロードした図が崩れることがありましたが、コマンドや専用のソフトウェアを使わず、ブラウザ上でインタラクティブに統計解析と視覚化を行うことが出来る貴重なwebアプリケーションです。アクセスしてみてください。
引用
PlotS: web-based application for data visualization and analysis
Ringyao Jajo, Shivani Kansal, Sonia Balyan, Saurabh Raghuvanshi
bioRxiv, Posted June 11, 2023
関連
参考