macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ジッタープロットを作成する SinaPlot

 

 データ駆動型サイエンスの最近の発展により、研究者は複数のソースからのデータを、多様な実験手順やデータベース上で統合するようになった。特にデータポイントの数がクラス間で異なる場合、データを正確に可視化する上で大きな課題となっている。サンプルサイズが異なるデータセットの表現を支援するために、著者らは現在の標準的な可視化チャートの限界を克服した新しいタイプのプロットを開発した。SinaPlotはストリップチャートとバイオリンプロットに触発されており、点の正規化された密度がx軸に沿ったジッターを制限することによって動作する。このプロットは、バイオリンプロットと同じ輪郭を表示するが、少数のデータポイントのための単純なストリップチャートに似ている。すべてのクラスにわたってジッターを正規化することで、プロットはサンプル数の異なるクラス間の比較のための公平な表現を提供しする。このようにして、プロットは、データポイント数、密度分布、外れ値、データの広がりの両方の情報を、非常にシンプルでわかりやすく、凝縮された形式で伝える。プロットを作成するためのパッケージは、ベースグラフィックスパッケージを使用してCRANネットワークを介してRで利用可能で、gggforceを介してggplotのためのgeomとして利用できる。また、プロットを作成するためのエクセルシートを受け付けるウェブサーバへのアクセスも提供している(http://servers.binf.ku.dk:8890/sinaplot/)。

 

CRAN

https://cran.r-project.org/web/packages/sinaplot/index.html

 

ここではweb版を簡単に紹介する。

 

webサービス

The home of the SinaPLot にアクセスする。

f:id:kazumaxneo:20200606095536p:plain



入力ファイルはexcel形式で提供する。エクセルファイル(xlsx)のみ受け付ける。名前は1列目に、値は2列目に記載する。ヘッダーは任意。

f:id:kazumaxneo:20200606231448p:plain

excel形式だが、整然フォーマットになっている必要がある。上の例では3列目(Cカラム)にsample2の値を書いてはならない。

 

読み込むとData Tableタブに読み込んだテーブルがプレビューされる。

f:id:kazumaxneo:20200606231817p:plain

Plotsタブで視覚化される。

f:id:kazumaxneo:20200606231758p:plain

 

こちらはexample dataのプロット。

f:id:kazumaxneo:20200606231951p:plain

ジッタープロットはマルチクラスデータセット内の任意の単一変数をプロットするのに適したデータ可視化方法である。バイオリンプロットなどに類似していて、各ジッタ(wiki)の幅は各クラス内のデータの密度分布によって制御される。

 

左のメニューから作図パラメータを変更できる。

f:id:kazumaxneo:20200606095536p:plain

 

 

引用

SinaPlot: An Enhanced Chart for Simple and Truthful Representation of Single Observations Over Multiple Classes

Nikos Sidiropoulos, Sina Hadi Sohi, Thomas Lin Pedersen, Bo Torben Porse, Ole Winther, Nicolas Rapin, Frederik Otzen Bagger

Journal of Computational and Graphical Statistics, Published online: 17 May 2018

 

関連