ボルケーノプロットやその他の分析プロット(相関プロット、アップセットプロット、ヒートマップなど)は、トランスクリプトームやプロテオーム解析において重要なデータ可視化方法として機能する。これらのプロットをカスタマイズして作成することは、発現異常データの理解を深めるために基本的に重要であり、その後のパスウェイ解析やバイオマーカー同定に役立つ。本発表では、ggVolcanoRと呼ばれるRベースのShinyアプリケーションを紹介する。このアプリケーションは、プログラミングの専門知識を必要とせず、ローカル実行ファイルとウェブベースアプリケーションの両方で、使いやすい対話的なインターフェースを介して、発現差異データセットのボルケーノプロット、相関プロット、upsetプロット、ヒートマップの生成と可視化をカスタマイズできるようにするものである。既存のパッケージと比較して、ggVolcanoR は、複数の発現差異データセットにおける制御困難な遺伝子/タンパク質の解析と比較のために、出版品質のボルケーノプロットやその他の分析プロットの生成を最適化する、より実用的なオプションを提供する。さらに、ggVolcanoR は、フィルタリングされた発現異常データのカスタマイズされたリストをダウンロードするオプションを提供し、下流のパスウェイ解析の入力として直接使用することができる。ggVolcanoR のソースコードは https://github.com/KerryAM-R/ggVolcanoR で公開されており、ggVolcanoR 1.0 のウェブサーバは https://ggvolcanor.erc.monash.edu/ で展開され、学術目的のために自由に利用することができる。
manual (右端のタブ)
https://ggvolcanor.erc.monash.edu/#
インストール
公開サーバは Ubuntu 20.04.2 LTS、R version 4.1.0となっている。ここではインストールせず、公開されているウェブサーバを使ってテストした。
install.packages("devtools")
devtools::install_github("KerryAM-R/ggVolcanoR")
ggVolcanoR::runApp()
https://ggvolcanor.erc.monash.edu/にアクセスする。
ggVolcanoR のウェブサーバは、4 コア CPU と 16GB の RAM を備えている(論文より)。
最初に読み込まれているテストデータは、トリプルネガティブ乳がん(TNBC)細胞株から作成され、インターフェロンγ(IFNγ)処理の効果を判定するためのプロテオーム解析データとなる。レポジトリのtest-data/Proteomics data.csvに相当する。
test-data/Proteomics data.csv
用意するには上の画像のようなファイル。フォーマットはカンマ区切りのテキストファイル(.csv)もしくはタブ区切りのプレーンテキストファイル(.txt)。1行目には、ヘッダーとして ID, logFC 、Pvalueを必ず含まなければならない。2行目以降、1列目には、遺伝子やたんぱく質名を記載する。このIDがラベルされるので、IDはユニークであることが望ましい。
コメント;Pvalueは、個人的な意見としては、調整済みのP値(FDRなど)を使う。特にカットオフ付近のP値は影響が大きく、厳しくなる(P値が増える)ので、統計的には微妙な変動をしている遺伝子が減り、よりクリアカットな図になると思われる。
準備ができたらファイルをアップロードする。上のBrowseボタンはパラメータファイルなので間違えないように注意。写真中央のChoose a datasetをtest-dataからownに切り替え、その下のBrowseボタンからファイルを指定する。ここではtest-data/Proteomics data.csvを読み込んだ。
ボルケーノプロットが表示された。
横軸はlog2 fold change、縦軸は-log10 p-value。破線で区切りられているように、P値が一定以下かつfold changeが一定以上の遺伝子|タンパク質のプロットに色が付く。
左のメニューの下の方には作図のパラメータが用意されている。
p-valueカットオフを0.01に変更した。
有意な変動をしているラベルを付ける。type of~からall.datasetsを選択した。これはラベルも含めたパラメータプリセットになっているので、変えると図の外観はデータに合わせて自動で最適化される。下の図は、ラベルのサイズのみ手動で小さくしている。
ラベルはp値の低いトップ30に付いている。変えるにはlabel rangeを調整する。distance of labelではプロットとラベルの距離を調整できる。
サイズなどを調整した。
出力する時の作図のサイズは図の下のパラメータで設定する。PDFかPNGでダウンロードできる。
Table with linksタブではIDを認識して自動でまとめられる。リンクが付く。
現在ラベルはp値の低いトップ30に付いているので、表も30行ある。
ヒト以外にも10以上のモデル生物に対応している。
volcano plot (selected colors)タブでは色を個別に調整できる。
summary tableタブ
誘導、抑制のID数など。
一番上のメニューからはCorrelation plotやヒートマップを作成するタブも選択できる。
これは、プロテオームとトランスクリプトームのデータセットの比較など、異なるタイプのデータの比較を容易にする目的で設計されている。
テストデータはトランスクリプトームとプロテオームデータセットのlogFC間の関係を比較している。、95%信頼区間付きの線形モデル回帰線を追加したり、最も有意なIDにラベルを付けたりすることができる。
Heatmap
Upset plot
引用
ggVolcanoR: A Shiny app for customizable visualization of differential expression datasets
Kerry A Mullan, Liesl M Bramberger, Prithvi Raj Munday, Gabriel Goncalves, Jerico Revote, Nicole A Mifsud, Patricia T Illing, Alison Anderson, Patrick Kwan, Anthony W Purcell, Chen Li
Comput Struct Biotechnol J. 2021 Oct 13;19:5735-5740
関連