データ駆動型サイエンスの最近の発展により、研究者は複数のソースからのデータを、多様な実験手順やデータベース上で統合するようになった。特にデータポイントの数がクラス間で異なる場合、データを正確に可視化する上で大きな課題となっている。サンプルサイズが異なるデータセットの表現を支援するために、著者らは現在の標準的な可視化チャートの限界を克服した新しいタイプのプロットを開発した。SinaPlotはストリップチャートとバイオリンプロットに触発されており、点の正規化された密度がx軸に沿ったジッターを制限することによって動作する。このプロットは、バイオリンプロットと同じ輪郭を表示するが、少数のデータポイントのための単純なストリップチャートに似ている。すべてのクラスにわたってジッターを正規化することで、プロットはサンプル数の異なるクラス間の比較のための公平な表現を提供しする。このようにして、プロットは、データポイント数、密度分布、外れ値、データの広がりの両方の情報を、非常にシンプルでわかりやすく、凝縮された形式で伝える。プロットを作成するためのパッケージは、ベースグラフィックスパッケージを使用してCRANネットワークを介してRで利用可能で、gggforceを介してggplotのためのgeomとして利用できる。また、プロットを作成するためのエクセルシートを受け付けるウェブサーバへのアクセスも提供している(http://servers.binf.ku.dk:8890/sinaplot/)。
CRAN
https://cran.r-project.org/web/packages/sinaplot/index.html
ここではweb版を簡単に紹介する。
The home of the SinaPLot にアクセスする。
入力ファイルはexcel形式で提供する。エクセルファイル(xlsx)のみ受け付ける。名前は1列目に、値は2列目に記載する。ヘッダーは任意。
excel形式だが、整然フォーマットになっている必要がある。上の例では3列目(Cカラム)にsample2の値を書いてはならない。
読み込むとData Tableタブに読み込んだテーブルがプレビューされる。
Plotsタブで視覚化される。
こちらはexample dataのプロット。
ジッタープロットはマルチクラスデータセット内の任意の単一変数をプロットするのに適したデータ可視化方法である。バイオリンプロットなどに類似していて、各ジッタ(wiki)の幅は各クラス内のデータの密度分布によって制御される。
左のメニューから作図パラメータを変更できる。
引用
SinaPlot: An Enhanced Chart for Simple and Truthful Representation of Single Observations Over Multiple Classes
Nikos Sidiropoulos, Sina Hadi Sohi, Thomas Lin Pedersen, Bo Torben Porse, Ole Winther, Nicolas Rapin, Frederik Otzen Bagger
Journal of Computational and Graphical Statistics, Published online: 17 May 2018
関連