macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

一般的なラボのデータ分析を高速化するshinyアプリケーション FaDA

2022/04/26 追記

 

 RプログラミングShinyパッケージを用いて開発されたWebベースのデータ解析・可視化ツールが研究者に提案されることが増えている。これらのツールは、様々な視点からデータを解析したり、インタラクティブな可視化を提供したりするのに便利である。そのため、Shinyツールはウェットラボの研究者がバイオインフォマティクスの進歩を利用することを可能にしている。現在のオンラインShinyアプリケーションのほとんどは、大規模データセットのヒートマップを生成するshinyheatmap、ゲノムデータからCircosプロットを構築するshinyCircos、GEOリポジトリから直接遺伝子発現データセットを解析するshinyGEOなどのように、特定の目的や技術に特化したものである。しかし、これらのアプリケーションのうち、定量PCR、フローサイトメトリー、ELISAなどの一般的な実験室技術から生成されたデータを対象に設計されたものはごくわずかである。これらの方法における技術の進歩により、研究者は大きなデータ出力を得ることができるようになった。フローサイトメトリー技術は、蛍光色素パラメータの組み合わせの10分の1の数で、多数のサンプルを実行することができる。また、マルチプレックス ELISA ではウェルあたり最大 10 分の 1 のサイトカインを読み取ることができ、定量 PCR (qPCR) 装置の進歩により 1 時間以内にサンプルを分析することが可能になった。これらの高データ出力は、研究室の研究者に時間のかかるデータ解析プロセスを残している。さらに、このような分析では、通常、研究者はいくつかのハンズオンプロセスを用いて目的のパラメータ分析を行い、情報の損失やヒューマンエラーのリスクを増大させている。
 著者らは、フローサイトメトリーやqPCRデータを含む多種多様なデータからの定期的なラボ分析をサポートする、ユーザーフレンドリーでインタラクティブなウェブShinyアプリケーションを作成した。このアプリケーションにより、研究者は、多重検定補正とヒートマップ、主成分分析(PCA)、receiver operating curve(ROC)(wiki)、コレログラム(correlogram)(wiki)の可視化などのパラメトリックおよびノンパラメトリック検定を含む古典的な統計的グループ比較を実行することができる。FaDAアプリケーションは、https://shiny-bird.univ-nantes.fr/app/Fada から自由にアクセスできる。

 

インストール

Github

 

 

webサービス

https://shiny-bird.univ-nantes.fr/app/Fadaにアクセスする。

f:id:kazumaxneo:20200510202836p:plain

  

分析したいデータのファイル(.csv or txt)をアップロードする。以下の入力が必要(Githubより)。

行形式で提供する場合

f:id:kazumaxneo:20200510213405p:plain

列形式で提供する場合 

f:id:kazumaxneo:20200510213408p:plain

exampleデータはこのようになっている。

f:id:kazumaxneo:20201009000944p:plain

 

ここでは以下のようなファイルを用意した。

f:id:kazumaxneo:20201009000311p:plain

 

Browseからアップロードする。

f:id:kazumaxneo:20201009000438p:plain

 

読み込み結果。平均値(または中央値),四分位範囲などを示した箱ひげ図が示される。

f:id:kazumaxneo:20201009000319p:plain

 

パラメータはその場で変更できる。左のメニューから行う。パラメトリックな検定とノンパラメトリックな検定を選べる。デフォルトはパラメトリック。データはlog2またはlog10に変換できる。

f:id:kazumaxneo:20201009000718p:plain

 

Shapiro-Wilk正規性検定のp値は、データ集合の分布がガウス分布(普通分布、正規分布)と異なるかどうかを示す(一般にp値0.05未満であればデータが正規分布に従っているという帰無仮説は棄却される)。これによってパラメトリック検定またはノンパラメトリック検定を行うべきか判断する。

f:id:kazumaxneo:20201010123526p:plain

 

グループ比較は、複数グループ比較のパラメトリックなt.検定またはTukeyの'Honest Significant Difference'法を用いたANOVA検定を用いて実行される。ノンパラメトリックなグループ比較は、FSAパッケージ(7)を用いた多重比較のMann Whitney検定またはDunnの検定を用いたKruskal Wallis検定を用いて行うことができる。多重検定による誤発見率の補正は、ボンフェローニ法または Benjamini & Hochberg(BH)法を用いて行われる(論文より)。 

f:id:kazumaxneo:20201010124756p:plain

 

Graph options:をwhiskers(ひげ)からviolinに変更。

f:id:kazumaxneo:20201009000601p:plain

結果はexcel形式やCSV形式でダウンロードできる。

f:id:kazumaxneo:20201010121033p:plain

 

他のタブも見ていく。

Heatmap & PCA

f:id:kazumaxneo:20201009000332p:plain

f:id:kazumaxneo:20201009000334p:plain

 

ここからはexample dataを使う。

グループが複数ある場合、クリックするとグラフが表示される。

f:id:kazumaxneo:20201010121137p:plain

 

f:id:kazumaxneo:20201009001323p:plain

コレログラム

exampleデータでは相関する遺伝子を識別するために利用している。

f:id:kazumaxneo:20201009001223p:plain

f:id:kazumaxneo:20201010125523p:plain

 

ROC curve

f:id:kazumaxneo:20201009002203p:plain

グラフの下の部分の面積がAUC(Area Under the Curve)。

 

使用されているRのパッケージはSupplementary Dataにまとめられています。

引用

FaDA: A Shiny web application to accelerate common lab data analyses
Yodit Feseha, Quentin Moiteaux, Estelle Geffard, Gérard Ramstein, Sophie Brouard, Richard Danger1

bioRxiv, April 25, 2020

 

2021

FaDA: A web application for regular laboratory data analyses

Richard Danger, Quentin Moiteaux, Yodit Feseha, Estelle Geffard, Gérard Ramstein, Sophie Brouard

PLoS One. 2021 Dec 20;16(12)

 

関連