macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(ヒトとマウス) RNA-seqデータの探索と可視化のためのブラウザベースのツール BEAVR

 

 分子生物学研究や臨床現場におけるRNA-sequencing(RNA-seq)の利用は、過去10年間で大幅に増加している。しかし、広く普及しているにもかかわらず、RNA-seqデータを解析・探索するためのシンプルでインタラクティブなツールが不足している。既存のツールの多くは、結果を分析して視覚化するために、プログラミングやUnix/Bashの知識を必要とする。この要件は、多くの研究者にとって、RNA-seqデータを効率的に分析・表示するための大きな障壁となっている。

 BEAVRは、RNA-seqデータの探索と可視化のためのブラウザベースのツールで、RNA-seqデータのインタラクティブな解析と探索を容易にし、使いやすくなっている。BEAVRはRで開発されており、DESeq2をDGE解析のエンジンとして使用しているが、ユーザーはRやDESeq2の予備知識がないことを前提としている。BEAVRは、研究者が簡単に、統計的検定を行った発現変動遺伝子のテーブルを取得し、その結果を一連のグラフ、プロット、ヒートマップで可視化することができる。ユーザーは、統計的検定、分散の取り扱い、クラスタリング手法、パスウェイ解析などの多くのパラメータをカスタマイズして、質の高い図を作成することができる。

 BEAVRは、初心者ユーザーのために解析を簡素化するだけでなく、エキスパートのためにいくつかのステップを自動化することで、RNA-seq解析プロセスを効率化する。BEAVRとそのドキュメントは、GitHubhttps://github.com/developerpiru/BEAVR)で入手できる。BEAVRは,Dockerコンテナとして https://hub.docker.com/r/pirunthan/beavr で入手できる。

 

Github

レポジトリでは、WindowsMac OSLinuxでのDockerの導入・使用方法についても丁寧に説明されています。

 

オーサーが公開しているdocker imageを使う。

docker run -ti -p 3838:3838 pirunthan/beavr:latest

localhost:3838(または127.0.0.1:3838)にアクセスする。

 

  • BEAVRはSTARアライナーで生成されるような生のリードカウントを必要とする。BEAVRの初期のバージョンでは、このアラインステップも含まれていたが、アライメントプロセスは非常に高い計算能力を必要とするため、現在のバージョンでは、BEAVRからアライメントのステップが取り除かれている。
  • STARやLinuxのシェルコマンドを使うのが苦手な人のために、Google Cloud仮想マシンを使ってSTAR alignerを簡単に実行できるチュートリアルも用意されている(https://github.com/developerpiru/cloudservers)。

 

ラン手順(解説

Exampleデータ

実験の全サンプルのすべての生のリードカウント値が、タブ区切り(.txt)またはカンマ区切り(.csv)のファイル形式で含まれたファイルが必要。

https://github.com/developerpiru/BEAVR/blob/master/Examples/LNCap_DMSO_SP2509_24h_merged_reads.csv

f:id:kazumaxneo:20211016003500p:plain

exampleはリードカウントのCSVファイルとなっている。1列目にはENSEMBL IDが必要。この列の見出し名は gene_idとする。サンプルの列は、各サンプルの生のリードカウントを入れる。各列の見出し(1行目)には、ユニークなサンプル/レプリケートの識別子を付ける(次のサンプル情報ファイルと一致している事)

 

サンプル情報を示したCSVファイルも必要。

https://github.com/developerpiru/BEAVR/blob/master/Examples/LNCap_DMSO_SP2509_sample_info.csv

LNCap_DMSO_SP2509_sample_info.csv

f:id:kazumaxneo:20211016003628p:plain

リードカウントファイルのどの列がどの処理グループに属するかを示す(タブ区切りまたはカンマ区切り)。1列目には、リードカウントファイルに含まれる各サンプルのサンプルまたはレプリケートの識別子をサンプル数だけ記載する(つまりExampleでは6行分必要)。2列目は、サンプルがどの治療条件/グループに属しているかを示す。この列の見出し名はconditionでなければならない。各行では、それぞれのサンプルがUntreated(未処理)、Treated(処理)、Wildtype(野生型)、Mutant(変異型)のいずれに属するかを示す必要がある。ExampleではDMSOまたはSP2509となっている。3列目には各サンプルの追加特性;Replicate-A、Replicate-B、Replicate-Cのように、異なる遺伝子型グループや複製を指定することができる。この列の見出し名は replicate でなければならない。

 

localhost:3838(または127.0.0.1:3838)にアクセスし、ファイルをアップロードする。

f:id:kazumaxneo:20211016004837p:plain

 

Settingsタブに移る。Settingsタブでは、リファレンス生物名、コントロール条件とトリートメント条件、統計に使用する偽発見率、各遺伝子に必要な最小リードカウント(この値以下の遺伝子は解析から除外される)などのオプションを選択する。

f:id:kazumaxneo:20211016004935p:plain

DMSOがネガティブコントロール。ゲノムはヒトとマウスに対応。

 

Gene Tableタブに移る。発現変動遺伝子の計算を行う。

f:id:kazumaxneo:20211015232933p:plain

結果は表形式で表示され、検索、順序付け、フィルタリング、サイドバーからのダウンロードが可能。計算が終わると、データを可視化したり結果をダウンロードする事ができるようになる。

 

Filter tableにチェックを入れないとパスウェイエンリッチメント解析などの一部の下流解析は実行できない。

f:id:kazumaxneo:20211015233031p:plain

 

PCA

f:id:kazumaxneo:20211016005426p:plain

図はサイドバーからカスタマイズできる。

f:id:kazumaxneo:20211016010349p:plain

 

Sample clustering

f:id:kazumaxneo:20211016005446p:plain

 

Read Count Plots

指定した任意の数の遺伝子について、正規化されたリードカウントをプロットすることができる。

f:id:kazumaxneo:20211016005515p:plain

遺伝子はサイドバーから選択する。

f:id:kazumaxneo:20211016010423p:plain

 

Heatmap

f:id:kazumaxneo:20211016005534p:plain

図の外観の設定に加えてClustering methodや距離法も選ぶことができる。

f:id:kazumaxneo:20211016010527p:plain

 

また、トップの発現変動遺伝子可視化数はデフォルトでは5となっている。サイドバーから数を上げれば表示する遺伝子数は増やすことができる。ただしクラスタリングの処理時間は長くなる。

f:id:kazumaxneo:20211016011024p:plain

ここでは50に増やした。

 

Volcano Plot

ボルケーノプロットタブでは、ヒートマップとは異なり、各遺伝子の p値情報も表示されるボルケーノプロット形式で発現変動遺伝子がプロットされる。

f:id:kazumaxneo:20211016005548p:plain

 

Pathway Enrichment Plot

Gene Tableタブでフィルタリングされたデータセットを使用してエンリッチメント解析を行う。

f:id:kazumaxneo:20211016005635p:plain

サイドバーでp値のカットオフを設定したり、表示するパスウェイの数を設定できる。

f:id:kazumaxneo:20211016011648p:plain

 

Dot Plotに変更した。

f:id:kazumaxneo:20211016010726p:plain

 

Pathway Enrichment Map

エンリッチメント解析を行い、すべてのパスウェイを相互に接続されたマップとして表示する。

f:id:kazumaxneo:20211016005657p:plain

 

Pathway Enrichment Table

Pathway Enrichment Plotのエンリッチメント結果の詳細が表示される。サイドバーのDownload Tableボタンを使用して表をダウンロードしたり、サイドバーのコントロールを使用して結果をフィルタリングすることができる。

f:id:kazumaxneo:20211016005716p:plain

 

GSEA Map

GSEA Mapタブでは、GSEAを実行してパスウェイの相互接続マップを表示する。

f:id:kazumaxneo:20211016005758p:plain

 

GSEA Plot

GSEA plotタブでは、GSEAを実行し、ランニングエンリッチメントスコアをプロットする。f:id:kazumaxneo:20211016005825p:plain

 

サイドバーに表示されるエンリッチメントパスウェイのリストから、プロットするパスウェイを選択できる。

f:id:kazumaxneo:20211016012206p:plain

 

GSEA Table

f:id:kazumaxneo:20211016005856p:plain

 

Help

f:id:kazumaxneo:20211016005912p:plain

 

 

引用

BEAVR: a browser-based tool for the exploration and visualization of RNA-seq data
Pirunthan Perampalam & Frederick A. Dick 
BMC Bioinformatics volume 21, Article number: 221 (2020) 

 

関連