分子生物学研究や臨床現場におけるRNA-sequencing(RNA-seq)の利用は、過去10年間で大幅に増加している。しかし、広く普及しているにもかかわらず、RNA-seqデータを解析・探索するためのシンプルでインタラクティブなツールが不足している。既存のツールの多くは、結果を分析して視覚化するために、プログラミングやUnix/Bashの知識を必要とする。この要件は、多くの研究者にとって、RNA-seqデータを効率的に分析・表示するための大きな障壁となっている。
BEAVRは、RNA-seqデータの探索と可視化のためのブラウザベースのツールで、RNA-seqデータのインタラクティブな解析と探索を容易にし、使いやすくなっている。BEAVRはRで開発されており、DESeq2をDGE解析のエンジンとして使用しているが、ユーザーはRやDESeq2の予備知識がないことを前提としている。BEAVRは、研究者が簡単に、統計的検定を行った発現変動遺伝子のテーブルを取得し、その結果を一連のグラフ、プロット、ヒートマップで可視化することができる。ユーザーは、統計的検定、分散の取り扱い、クラスタリング手法、パスウェイ解析などの多くのパラメータをカスタマイズして、質の高い図を作成することができる。
BEAVRは、初心者ユーザーのために解析を簡素化するだけでなく、エキスパートのためにいくつかのステップを自動化することで、RNA-seq解析プロセスを効率化する。BEAVRとそのドキュメントは、GitHub(https://github.com/developerpiru/BEAVR)で入手できる。BEAVRは,Dockerコンテナとして https://hub.docker.com/r/pirunthan/beavr で入手できる。
レポジトリでは、Windows、Mac OS、LinuxでのDockerの導入・使用方法についても丁寧に説明されています。
オーサーが公開しているdocker imageを使う。
docker run -ti -p 3838:3838 pirunthan/beavr:latest
localhost:3838(または127.0.0.1:3838)にアクセスする。
- BEAVRはSTARアライナーで生成されるような生のリードカウントを必要とする。BEAVRの初期のバージョンでは、このアラインステップも含まれていたが、アライメントプロセスは非常に高い計算能力を必要とするため、現在のバージョンでは、BEAVRからアライメントのステップが取り除かれている。
- STARやLinuxのシェルコマンドを使うのが苦手な人のために、Google Cloud仮想マシンを使ってSTAR alignerを簡単に実行できるチュートリアルも用意されている(https://github.com/developerpiru/cloudservers)。
ラン手順(解説)
Exampleデータ
実験の全サンプルのすべての生のリードカウント値が、タブ区切り(.txt)またはカンマ区切り(.csv)のファイル形式で含まれたファイルが必要。
https://github.com/developerpiru/BEAVR/blob/master/Examples/LNCap_DMSO_SP2509_24h_merged_reads.csv
exampleはリードカウントのCSVファイルとなっている。1列目にはENSEMBL IDが必要。この列の見出し名は gene_idとする。サンプルの列は、各サンプルの生のリードカウントを入れる。各列の見出し(1行目)には、ユニークなサンプル/レプリケートの識別子を付ける(次のサンプル情報ファイルと一致している事)
サンプル情報を示したCSVファイルも必要。
https://github.com/developerpiru/BEAVR/blob/master/Examples/LNCap_DMSO_SP2509_sample_info.csv
LNCap_DMSO_SP2509_sample_info.csv
リードカウントファイルのどの列がどの処理グループに属するかを示す(タブ区切りまたはカンマ区切り)。1列目には、リードカウントファイルに含まれる各サンプルのサンプルまたはレプリケートの識別子をサンプル数だけ記載する(つまりExampleでは6行分必要)。2列目は、サンプルがどの治療条件/グループに属しているかを示す。この列の見出し名はconditionでなければならない。各行では、それぞれのサンプルがUntreated(未処理)、Treated(処理)、Wildtype(野生型)、Mutant(変異型)のいずれに属するかを示す必要がある。ExampleではDMSOまたはSP2509となっている。3列目には各サンプルの追加特性;Replicate-A、Replicate-B、Replicate-Cのように、異なる遺伝子型グループや複製を指定することができる。この列の見出し名は replicate でなければならない。
localhost:3838(または127.0.0.1:3838)にアクセスし、ファイルをアップロードする。
Settingsタブに移る。Settingsタブでは、リファレンス生物名、コントロール条件とトリートメント条件、統計に使用する偽発見率、各遺伝子に必要な最小リードカウント(この値以下の遺伝子は解析から除外される)などのオプションを選択する。
DMSOがネガティブコントロール。ゲノムはヒトとマウスに対応。
Gene Tableタブに移る。発現変動遺伝子の計算を行う。
結果は表形式で表示され、検索、順序付け、フィルタリング、サイドバーからのダウンロードが可能。計算が終わると、データを可視化したり結果をダウンロードする事ができるようになる。
Filter tableにチェックを入れないとパスウェイエンリッチメント解析などの一部の下流解析は実行できない。
PCA
図はサイドバーからカスタマイズできる。
Sample clustering
Read Count Plots
指定した任意の数の遺伝子について、正規化されたリードカウントをプロットすることができる。
遺伝子はサイドバーから選択する。
Heatmap
図の外観の設定に加えてClustering methodや距離法も選ぶことができる。
また、トップの発現変動遺伝子可視化数はデフォルトでは5となっている。サイドバーから数を上げれば表示する遺伝子数は増やすことができる。ただしクラスタリングの処理時間は長くなる。
ここでは50に増やした。
Volcano Plot
ボルケーノプロットタブでは、ヒートマップとは異なり、各遺伝子の p値情報も表示されるボルケーノプロット形式で発現変動遺伝子がプロットされる。
Pathway Enrichment Plot
Gene Tableタブでフィルタリングされたデータセットを使用してエンリッチメント解析を行う。
サイドバーでp値のカットオフを設定したり、表示するパスウェイの数を設定できる。
Dot Plotに変更した。
Pathway Enrichment Map
エンリッチメント解析を行い、すべてのパスウェイを相互に接続されたマップとして表示する。
Pathway Enrichment Table
Pathway Enrichment Plotのエンリッチメント結果の詳細が表示される。サイドバーのDownload Tableボタンを使用して表をダウンロードしたり、サイドバーのコントロールを使用して結果をフィルタリングすることができる。
GSEA Map
GSEA Mapタブでは、GSEAを実行してパスウェイの相互接続マップを表示する。
GSEA Plot
GSEA plotタブでは、GSEAを実行し、ランニングエンリッチメントスコアをプロットする。
サイドバーに表示されるエンリッチメントパスウェイのリストから、プロットするパスウェイを選択できる。
GSEA Table
Help
引用
BEAVR: a browser-based tool for the exploration and visualization of RNA-seq data
Pirunthan Perampalam & Frederick A. Dick
BMC Bioinformatics volume 21, Article number: 221 (2020)
関連