macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

公開されている大規模なRNA-seqデータセットを扱う recount3

 

 新しいMonorail解析パイプラインによって一様に処理された750,000以上の一般に公開されているヒトとマウスのRNAシーケンス(RNA-seq)サンプルからなるリソース、recount3を紹介する。データへのアクセスを容易にするために、recount3およびsnapcountのR/Bioconductorパッケージと、それを補完するWebリソースを提供している。これらのツールを使って、データを研究レベルのサマリーとしてダウンロードしたり、特定のエクソン-エクソン接合、遺伝子、サンプル、または他の特徴を照会することができる。Monorailはローカルデータやプライベートデータの処理に使用することができ、結果をrecount3内のどの研究とも直接比較することができる。このツールは、生物学者が一般に公開されているRNA-seqデータを最大限に活用し、特に新しく収集されたデータの理解を深めるのに役立つ。

 

 recount3は、SRAから収集したヒト316,443件、マウス416,803件のラン(個別データセット)に加え、Genotype-Tissue Expression (GTEx version 8) やThe Cancer Genome Atlas (TCGA) など大規模ヒトコンソーシアムから収集したデータも含まれている。第二に、recount3は、recount3 Bioconductor [12]パッケージのように、ユーザーがこれらのアノテーション依存およびアノテーションにとらわれない発現サマリーを照会し利用するためのいくつかの方法を提供している。snapcount Bioconductorパッケージと統合されたSnaptron [13]サービスにより、ユーザーは一度にすべてのサマリーに対して、例えば316KヒトSRAサンプルすべてに対して、迅速にクエリーを実行することが可能になっている。最後に、サマリーの作成に使用したSnakemakeベースの解析パイプラインmonorailは、単一のDocker/Singularityイメージにより、ユーザーが各自のローカルRNA-seqリードの計算環境を介して簡単に実行できるように設計されている。

 recount3は、アノテーションにとらわれない統一的な方法で処理されているため、様々なタイプの解析に対応できる。ヒトとマウスの比較、研究間の比較、メタ分析、新しい質問に答えるためのデータの再利用、あるいは注釈のないトランスクリプトームの広範な探索などが考えられる。

 

HP

http://rna.recount.bio/

Documentation

http://rna.recount.bio/docs/

rdrr.io

https://rdrr.io/github/LieberInstitute/recount3/man/

 

ここではrecount3パッケージについて紹介します。

インストール

BiocManagerでは時間がかかるので、condaで環境を作ってmambaコマンドで導入した。

Github

#conda (link)
mamba create -n recount3 python=3.9 -y
conda activate recount3
mamba install -c bioconda bioconductor-recount3 -y

#もしくはBiocManagerを使う
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("recount3")

#shiny GUIを使用する場合、以下も必要
mamba install -c bioconda bioconductor-interactivedisplaybase -y
#rstudioも入れる
mamba install -c r rstudio -y

 

 

実行方法

マニュアルでは、興味のある研究を探索してもし見つかればダウンロードして利用する手順が説明されている。ここではその流れを確認する。

1、ロード

#load
library("recount3")

2、プロジェクトのロード

#ヒトで利用可能な全プロジェクトをロードする(available_projects
human_projects <- available_projects(
organism = c("human")
)

プロジェクトがキャッシュされる。

f:id:kazumaxneo:20220208013404p:plain

 

3、関心のあるプロジェクトをshiny GUIインターフェイスで探す(上のinteractivedisplaybase が必要)

proj_info_interactive <- interactiveDisplayBase::display(human_projects)

RstudioのViewerとブラウザで利用可能なプロジェクトのテーブルビューアが立ち上がる。

f:id:kazumaxneo:20220208013848p:plain

 

 

4、興味があるプロジェクトが見つかったらクリックして選択し、左上のsendを押す。

f:id:kazumaxneo:20220208014012p:plain

メタデータが表示されていないのでどんなデータかは、このtableだけでは分からない。recount3のオンラインビューアのこちらで探し、興味があるproject ID(画面に表示されているのはSRA ID)を上のビューアで検索し直すのが無難と思われる。

 

5、プロジェクトを選択してsendをクリック。

f:id:kazumaxneo:20220208003219p:plain

rstudioのRコンソールで

#sendボタンが正しくクリックされたかチェック(エラーが表示されなければO.K)
stopifnot(nrow(proj_info_interactive) == 1)

#続いてRSEオブジェクトを作成(create_rse)。この関数は発現データを取得してRSE オブジェクトを構築する。フィーチャータイプはgene, exon, exon-exon junction countから選ぶ。ここではgene。
rse_gene_interactive <- create_rse(proj_info_interactive,
 type = c("gene")
)

f:id:kazumaxneo:20220208003352p:plain

ここでは上の写真とは異なるこのプロジェクトをダウンロードした。

rse_gene_interactive

f:id:kazumaxneo:20220208015140p:plain

#サンプル名
colnames(rse_gene_interactive)
#メタデータ
colnames(colData(rse_gene_interactive))

 

 

6、transform_counts関数(リンク)を使って生のカバレッジカウントをスケーリングする。スケーリング式はrecount2 とほぼ同じらしい。こちらの論文のScaling coverage countsのセクションを参照。

assay(rse_gene_interactive, "counts") <- transform_counts(
rse_gene_interactive,
by = c("mapped_reads"),
targetSize = 4e+07,
L = 100,
round = TRUE
)

mapped_readsは上の論文のEquation (1)。リード長は100-bp、一部の下流解析パッケージ(例えばDESeq2)でエラーになる少数以下をroundで少し丸める。recountのライブラリーサイズはデフォルトでは4000万リード。TPMやFPKMにしたい時は(リンク)先のページ下にある"example"を参照。

 

f:id:kazumaxneo:20220208024238p:plain

準備ができたら下流解析を行う。


引用

recount3: summaries and queries for large-scale RNA-seq expression and splicing
Christopher Wilks, Shijie C Zheng, Feng Yong Chen, Rone Charles, Brad Solomon, Jonathan P Ling, Eddie Luidy Imada, David Zhang, Lance Joseph, Jeffrey T Leek, Andrew E Jaffe, Abhinav Nellore, Leonardo Collado-Torres, Kasper D Hansen, Ben Langmead

Genome Biol. 2021 Nov 29;22(1):323