macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ボックスプロットを描画するwebツール BoxPlotR

2021 2/26 追記

 

 生物医学研究では、異なる分布を持つ複数のデータセットを比較する必要があることが多い。棒グラフ、またはヒストグラムは、通常、単純な統計的尺度、通常は s.d.やs.e.m.による平均値に基づいてデータセットを比較するために使用される。ボックスプロットは、箱とヒゲのプロットとしても知られており、要約統計量と一次データの分布の両方を表している。このように、ボックスプロットは、任意のデータセットの最小値、第1四分位点、中央値、第3四分位点、最大値を可視化することができる(論文図1b)。Spear によるボックスプロットのようなグラフの最初の記述は、データセットの中央値と四分位間の範囲(IQR、または50%の中間値)を示す範囲バーを定義したもので、ヒゲは最小値と最大値にまで拡張されている。Tukeyによって定義されたボックスプロットの最も一般的な実装は、IQRを表すボックスを持ち、ボックスの縁からIQRの1.5倍のヒゲが伸びている。ヒゲは、データの95%の中心範囲にまたがるように定義することもできる。ビーンプロット4やバイオリンプロットなどの他のバリエーションは、データ分布の詳細を明らかにする。これらの後者のバリエーションは、統計的な情報量は少ないが、bimodality(論文図1b)のような、標準的なボックスプロットでは隠れている可能性のあるデータ分布をより良く可視化することができる。

 

 

棒グラフではデータ分布が不明瞭になることがある。これは本質的にbimodalのような複数のピークを持つデータで顕著になる。論文図1では、4種類の分布パターンを持つデータを棒グラフ、箱ひげ図、バイオリンプロット、ビーンプロットのグラフで表現している。4種類の分布を持つデータを比較するために、データの分布の違いを最も正確に表現しているグラフはどれだろうか?最もバイアスを与えてしまうグラフはどれだろうか?

f:id:kazumaxneo:20210119015604p:plain

論文の図1を転載。観測値はそれぞれ100ある(=たくさんの観測値が得られる研究)。

 

webサービス

http://shiny.chemgrid.org/boxplotr/ にアクセスする。

f:id:kazumaxneo:20210119085558p:plain

 

データをアップロードする。

f:id:kazumaxneo:20210119085736p:plainタブ区切り、カンマ区切り、またはセミコロン区切りのファイルをアップロードする。

example dataは1行目が列の説明、1列名が通し番号、2列目以降にデータとなる。

f:id:kazumaxneo:20210119085836p:plain

 

Data Visualizationタブに移るとボックスプロットが表示される。

f:id:kazumaxneo:20210119090226p:plain

 

Otherに切り替えるとbox plotからViolin plot、Bean plotに変更できる。

Violin plot

f:id:kazumaxneo:20210119090329p:plain

 

Bean plot

f:id:kazumaxneo:20210119090447p:plain

 

色はHex Color Codesか色指定で変更可能(下の画像では左のメニューの一番下)。

f:id:kazumaxneo:20210119090940p:plain

 

ヒゲの長さをSpearの定義に変更(選択する部分の下に解説あり)、data pointsを表示。

f:id:kazumaxneo:20210119091222p:plain

 

Fig.のサイズを変える。 Adjust plot sizeをクリック、

f:id:kazumaxneo:20210226134922p:plain

 

長くなった。

f:id:kazumaxneo:20210226135000p:plain

 

縦方向に変換

f:id:kazumaxneo:20210226135013p:plain

 

縦になった。

f:id:kazumaxneo:20210226135102p:plain

 

他にも多くの機能があります。アクセスして確かめて下さい。

引用

BoxPlotR: a web tool for generation of box plots

Michaela Spitzer, Jan Wildenhain, Juri Rappsilber, Mike Tyers

Nat Methods. Author manuscript; available in PMC 2014 Aug 1

 

関連