2021 2/26 追記
生物医学研究では、異なる分布を持つ複数のデータセットを比較する必要があることが多い。棒グラフ、またはヒストグラムは、通常、単純な統計的尺度、通常は s.d.やs.e.m.による平均値に基づいてデータセットを比較するために使用される。ボックスプロットは、箱とヒゲのプロットとしても知られており、要約統計量と一次データの分布の両方を表している。このように、ボックスプロットは、任意のデータセットの最小値、第1四分位点、中央値、第3四分位点、最大値を可視化することができる(論文図1b)。Spear によるボックスプロットのようなグラフの最初の記述は、データセットの中央値と四分位間の範囲(IQR、または50%の中間値)を示す範囲バーを定義したもので、ヒゲは最小値と最大値にまで拡張されている。Tukeyによって定義されたボックスプロットの最も一般的な実装は、IQRを表すボックスを持ち、ボックスの縁からIQRの1.5倍のヒゲが伸びている。ヒゲは、データの95%の中心範囲にまたがるように定義することもできる。ビーンプロット4やバイオリンプロットなどの他のバリエーションは、データ分布の詳細を明らかにする。これらの後者のバリエーションは、統計的な情報量は少ないが、bimodality(論文図1b)のような、標準的なボックスプロットでは隠れている可能性のあるデータ分布をより良く可視化することができる。
棒グラフではデータ分布が不明瞭になることがある。これは本質的にbimodalのような複数のピークを持つデータで顕著になる。論文図1では、4種類の分布パターンを持つデータを棒グラフ、箱ひげ図、バイオリンプロット、ビーンプロットのグラフで表現している。4種類の分布を持つデータを比較するために、データの分布の違いを最も正確に表現しているグラフはどれだろうか?最もバイアスを与えてしまうグラフはどれだろうか?
論文の図1を転載。観測値はそれぞれ100ある(=たくさんの観測値が得られる研究)。
http://shiny.chemgrid.org/boxplotr/ にアクセスする。
データをアップロードする。
タブ区切り、カンマ区切り、またはセミコロン区切りのファイルをアップロードする。
example dataは1行目が列の説明、1列名が通し番号、2列目以降にデータとなる。
Data Visualizationタブに移るとボックスプロットが表示される。
Otherに切り替えるとbox plotからViolin plot、Bean plotに変更できる。
Violin plot
Bean plot
色はHex Color Codesか色指定で変更可能(下の画像では左のメニューの一番下)。
ヒゲの長さをSpearの定義に変更(選択する部分の下に解説あり)、data pointsを表示。
Fig.のサイズを変える。 Adjust plot sizeをクリック、
長くなった。
縦方向に変換
縦になった。
他にも多くの機能があります。アクセスして確かめて下さい。
引用
BoxPlotR: a web tool for generation of box plots
Michaela Spitzer, Jan Wildenhain, Juri Rappsilber, Mike Tyers
Nat Methods. Author manuscript; available in PMC 2014 Aug 1
関連