macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

IRIS-EDA(立ち上げだけ紹介)

 

 生物学的システムの統合モデルを構築し、疾病を予防または治療するための実現可能な戦略を考案するには、適切な実験計画法とインタラクティブなインタフェースを備えた高度な計算ツールが必要である。 RNA-Seqは膨大な量の遺伝子発現データを作成しており、データ解析と解釈の需要は非常に大きい[ref.4]。遺伝子発現データの分析は、方法および実験を適切に設計し、そして多くの計算言語のうちの1つを使用して分析プロセスを実施する際のコンピューター経験によって促進される。しかしこれは、RNA-Seq研究を分析したいと思うユーザが限られた計算経験しか持っていないと障害となる。したがって、使いやすくインタラクティブな表現を持った分析と結果の視覚化方法の必要性が高まっている[ref.5]。

 サンプルレベルまたは細胞レベルでデータの特定の品質を決定するために、多種多様な計算方法を発現データに適用することができるが[ref.6-13]、ディファレンシャル遺伝子発現(DGE)分析が最も一般的に使用される。それは研究者が2つ以上の条件にわたって差次的に発現される遺伝子(DEG)を同定することを可能にし、そして遺伝子発現レベルの差を表現型の変動と相関させる意味のある方法を提供することができる。 DESeq [ref.14]、DESeq2 [ref.15]、edgeR [ref.16]、limma [ref.17]、Cuffdiff [ref.18]、Cuffdiff2 [ref.19]、sleuth [ref.20]など、多くのツールが開発および最適化されている。 DGE分析とDGE結果の視覚化にはかなりの努力が払われてきたがref.[21-28]、実験計画の課題、包括的な統合発見主導分析およびDGEツールの必要性、分析結果の視覚化に関連するインタラクティブな機能、機能性の欠如など、多くの落とし穴とボトルネックが残っている。

 これらのボトルネックに対処するために、本著者らはIRIS-EDAを作成した。これは発現データ解析のためのインタラクティブRNA-Seq解釈システムである。IRIS-EDAは遺伝子発現データを包括的に分析し、そしてインタラクティブな要約視覚化を容易に生成するための、ユーザーフレンドリーなインタラクティブプラットフォームを提供する。他の分析プラットフォームとは対照的に、IRIS-EDAはより包括的でマルチレベルの分析プラットフォームをユーザーに提供する。 IRIS-EDAは、1)シングルセルおよびバルクRNA-Seq分析機能、2)GEO submitの互換性、3)有用な発見主導およびDGE分析、7)4)7 DGE解析のための3つの統合されたツールと5)7つのインタラクティブな視覚化による実験計画法アプローチ(論文図1)。

 具体的には、IRIS-EDAは包括的なRNA-Seqデータ処理と解析をシームレスなワークフローで提供する。この調査アプローチでは、発現品質管理と、広く使用されている3つのRパッケージ、DESeq2、edgeR、およびlimmaの1つを通じてDGE分析と統合された発見主導型分析を使用する。それは、直感的な実験的設計オプション(例えば、対比較および要因比較、主効果およびグループ化主効果など)の選択、ならびにDGE分析においてカスタム設計マトリックスをアップロードするためのオプションをユーザーに提供する。 IRIS-EDAには、分析タイプごとにインタラクティブな視覚化機能が多数含まれているため、ユーザーはデータと結果を即座にグローバルに表示したり、出版物用の高解像度静止画像としてダウンロードすることができる。このツールは初めてFAIR Data Principles [ref.30]に基づいたフレームワークを実装し、ユーザーが自分のデータと結果をNCBIのGene Expression Omnibus(GEO)に送信できるようにする。

バルクおよびシングルセルRNA-Seq解析

 IRIS-EDAは遺伝子発現データ解析のための包括的なプラットフォームを提供するように設計された。シングルセルRNA-Seq(scRNA-Seq)データ解析はRNA-Seq解析の中で研究の成長分野であり、細胞の変異を考慮して遺伝子発現パターンに独自の洞察を提供することができる[ref,31、32]。従来のDGE分析に使用された方法は、適切なフィルタリングおよびDGE法と組み合わせた場合、scRNA-Seq DGE分析への適用性を実証した[ref.32]。したがって、IRIS-EDAは、わずかな修正を加えるだけで、scRNA-Seqデータの発見主導型およびDGE分析を容易にすることができる。すなわち、シングルセルデータの分析は、特にedgeRまたはlimmaのいずれかと組み合わせた場合に、100万回あたりの転写産物(TPM)> 1のデフォルト設定に基づく厳密なフィルターカットオフを使用することによって適切に実施できる。 10Xgenomics シングルセルデータのような全体的に低い発現レベルを期待する特定の種類のscRNA-Seqデータについては、違いを説明するために異なるアプローチが提供されている。特に、DESeq2正規化法は、最も信頼性の高い分析結果を提供するために、遺伝子のフィルタリングなしで使用される[ref.33]。 scRNA-Seqデータの分析に関する詳細は、S1 TextのSingle-cell RNA-Seqセクションにある。

必要な入力

 IRIS-EDAでは、使用するデータの種類に応じて、2つまたは3つのユーザー提供の入力ファイルが必要になる。(1)遺伝子発現推定マトリックス(EEM、リードカウントデータとも呼ばれる)、(2)因子レベルを含む条件マトリックスEEMの提供されたサンプルに対応する、および(3)scRNA-Seqデータのみのフィルタリングに使用される各遺伝子の塩基対の長さを示す遺伝子長マトリックス。データをアップロードするとき、ユーザーは遺伝子発現データタイプを選択する:バルクまたはシングルセルRNA-Seqデータ。 scRNA-Seqデータを使用している場合は、遺伝子長マトリックスの追加要件がWebサーバーに表示される。また、シングルセルデータの分析を最適化するためのデフォルトのパラメータ設定が、サーバー全体に表示される。 GFF / GTF / GFF3アノテーションファイルから遺伝子長を取得する方法はS1 TextのSingle-cell RNA-Seqセクションにある。

必要な入力を送信した後、3つの正規化アプローチのうちの1つを選択したり、ユーザーがデータを正規化しないことを選択することもできる。 IRIS-EDAで利用可能な3つの正規化方法は、正規対数変換、正規化対数変換、および分散安定化変換である。通常の対数変換では、各遺伝子の発現を正規化するために2を底とする対数関数を使用する。そうすることで、特に、多数のゼロが変換されていないプロットから収集された情報をほとんどもたらさない可能性があるスパース表現行列に対して、表現分布の視覚化を改善した。正則化された対数変換は、遺伝子数が少ないサンプル間の差異を最小限に抑え、ライブラリのサイズに基づいて正則化する方法を提供する[ref.15]。正規化された対数変換法は、ライブラリのサイズがそれほど変わらないデータセットに最も役立つ。分散安定化変換はライブラリーのサイズによっても正規化され、ほぼホモロジー的な表現行列を提供する[ref.15]。ライブラリサイズが大きく異なるデータセットの場合は、分散安定化変換方法が最も適している。

 

tutorial

http://bmbl.sdstate.edu/IRIS/

FAQ

http://bmbl.sdstate.edu/IRIS/

Github

R shinnyのアプリとして構築されており、localでも使用可能です。

 

使い方

http://bmbl.sdstate.edu/IRIS/にアクセスする。

f:id:kazumaxneo:20190422002037p:plain

 

Count dataは以下のようなフォーマットで準備する。

f:id:kazumaxneo:20190422002601p:plain

 

Metadataは以下のようなフォーマットで準備する。

f:id:kazumaxneo:20190422002654p:plain

 

localで使用することもできる。Rstudioでテストした。

# CRAN
packages <- c(
"crosstalk", "dplyr", "DT", "gtools", "plotly", "shiny", "plyr",
"shinyBS", "shinycssloaders", "shinythemes", "tibble", "tidyr",
"Rcpp", "Hmisc", "ggplot2", "locfit", "GGally", "pheatmap",
"reshape2", "backports", "digest", "fields", "psych", "stringr",
"tools", "openxlsx", "Rtsne", "WGCNA", "flashClust", "parallel",
"MCL", "kmed", "ape"
)
np <- packages[!(packages %in% installed.packages()[, "Package"])]
if(length(np)) install.packages(np)


# Bioconductor
bioc_packages <- c(
"DESeq2", "edgeR", "limma", "QUBIC", "geneplotter", "GO.db", "impute",
"preprocessCore", "AnnotationDbi"
)
np <- bioc_packages[!(bioc_packages %in% installed.packages()[,"Package"])]
if (!require("BiocManager")) install.packages("BiocManager")
BiocManager::install(np)

# GitHub
if (!require("devtools")) install.packages("devtools")
devtools::install_github("OSU-BMBL/BRIC", force = T)


shiny::runGitHub("iris", "OSU-BMBL")

立ち上げたところ。

f:id:kazumaxneo:20190423005923p:plain

 

引用

IRIS-EDA: An integrated RNA-Seq interpretation system for gene expression data analysis
Brandon Monier , Adam McDermaid , Cankun Wang, Jing Zhao, Allison Miller, Anne Fennell, Qin Ma

PLoS Comput Biol. 2019 Feb 14;15(2)