新しいMonorail解析パイプラインによって一様に処理された750,000以上の一般に公開されているヒトとマウスのRNAシーケンス(RNA-seq)サンプルからなるリソース、recount3を紹介する。データへのアクセスを容易にするために、recount3およびsnapcountのR/Bioconductorパッケージと、それを補完するWebリソースを提供している。これらのツールを使って、データを研究レベルのサマリーとしてダウンロードしたり、特定のエクソン-エクソン接合、遺伝子、サンプル、または他の特徴を照会することができる。Monorailはローカルデータやプライベートデータの処理に使用することができ、結果をrecount3内のどの研究とも直接比較することができる。このツールは、生物学者が一般に公開されているRNA-seqデータを最大限に活用し、特に新しく収集されたデータの理解を深めるのに役立つ。
recount3は、SRAから収集したヒト316,443件、マウス416,803件のラン(個別データセット)に加え、Genotype-Tissue Expression (GTEx version 8) やThe Cancer Genome Atlas (TCGA) など大規模ヒトコンソーシアムから収集したデータも含まれている。第二に、recount3は、recount3 Bioconductor [12]パッケージのように、ユーザーがこれらのアノテーション依存およびアノテーションにとらわれない発現サマリーを照会し利用するためのいくつかの方法を提供している。snapcount Bioconductorパッケージと統合されたSnaptron [13]サービスにより、ユーザーは一度にすべてのサマリーに対して、例えば316KヒトSRAサンプルすべてに対して、迅速にクエリーを実行することが可能になっている。最後に、サマリーの作成に使用したSnakemakeベースの解析パイプラインmonorailは、単一のDocker/Singularityイメージにより、ユーザーが各自のローカルRNA-seqリードの計算環境を介して簡単に実行できるように設計されている。
recount3は、アノテーションにとらわれない統一的な方法で処理されているため、様々なタイプの解析に対応できる。ヒトとマウスの比較、研究間の比較、メタ分析、新しい質問に答えるためのデータの再利用、あるいは注釈のないトランスクリプトームの広範な探索などが考えられる。
HP
Documentation
rdrr.io
https://rdrr.io/github/LieberInstitute/recount3/man/
ここではrecount3パッケージについて紹介します。
インストール
BiocManagerでは時間がかかるので、condaで環境を作ってmambaコマンドで導入した。
#conda (link)
mamba create -n recount3 python=3.9 -y
conda activate recount3
mamba install -c bioconda bioconductor-recount3 -y
#もしくはBiocManagerを使う
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("recount3")
#shiny GUIを使用する場合、以下も必要
mamba install -c bioconda bioconductor-interactivedisplaybase -y
#rstudioも入れる
mamba install -c r rstudio -y
実行方法
マニュアルでは、興味のある研究を探索してもし見つかればダウンロードして利用する手順が説明されている。ここではその流れを確認する。
1、ロード
#load
library("recount3")
2、プロジェクトのロード
#ヒトで利用可能な全プロジェクトをロードする(available_projects)
human_projects <- available_projects(
organism = c("human")
)
プロジェクトがキャッシュされる。
3、関心のあるプロジェクトをshiny GUIインターフェイスで探す(上のinteractivedisplaybase が必要)
proj_info_interactive <- interactiveDisplayBase::display(human_projects)
RstudioのViewerとブラウザで利用可能なプロジェクトのテーブルビューアが立ち上がる。
4、興味があるプロジェクトが見つかったらクリックして選択し、左上のsendを押す。
メタデータが表示されていないのでどんなデータかは、このtableだけでは分からない。recount3のオンラインビューアのこちらで探し、興味があるproject ID(画面に表示されているのはSRA ID)を上のビューアで検索し直すのが無難と思われる。
5、プロジェクトを選択してsendをクリック。
rstudioのRコンソールで
#sendボタンが正しくクリックされたかチェック(エラーが表示されなければO.K)
stopifnot(nrow(proj_info_interactive) == 1)
#続いてRSEオブジェクトを作成(create_rse)。この関数は発現データを取得してRSE オブジェクトを構築する。フィーチャータイプはgene, exon, exon-exon junction countから選ぶ。ここではgene。
rse_gene_interactive <- create_rse(proj_info_interactive,
type = c("gene")
)
ここでは上の写真とは異なるこのプロジェクトをダウンロードした。
rse_gene_interactive
#サンプル名
colnames(rse_gene_interactive)
#メタデータ
colnames(colData(rse_gene_interactive))
6、transform_counts関数(リンク)を使って生のカバレッジカウントをスケーリングする。スケーリング式はrecount2 とほぼ同じらしい。こちらの論文のScaling coverage countsのセクションを参照。
assay(rse_gene_interactive, "counts") <- transform_counts(
rse_gene_interactive,
by = c("mapped_reads"),
targetSize = 4e+07,
L = 100,
round = TRUE
)
mapped_readsは上の論文のEquation (1)。リード長は100-bp、一部の下流解析パッケージ(例えばDESeq2)でエラーになる少数以下をroundで少し丸める。recountのライブラリーサイズはデフォルトでは4000万リード。TPMやFPKMにしたい時は(リンク)先のページ下にある"example"を参照。
準備ができたら下流解析を行う。
引用
recount3: summaries and queries for large-scale RNA-seq expression and splicing
Christopher Wilks, Shijie C Zheng, Feng Yong Chen, Rone Charles, Brad Solomon, Jonathan P Ling, Eddie Luidy Imada, David Zhang, Lance Joseph, Jeffrey T Leek, Andrew E Jaffe, Abhinav Nellore, Leonardo Collado-Torres, Kasper D Hansen, Ben Langmead
Genome Biol. 2021 Nov 29;22(1):323