ハイスループットデータ技術の進歩により、詳細な分析なしに膨大な量の遺伝子発現データが生成されてきた。例えば、INVEX (Xia et al., 2013)、ExAtlas (Sharov et al., 2015)、そしてWebGIVI (Sun et al., 2017)などのいくつかのウェブベースの視覚化ツールは、発現データ分析において首尾よく使用された。ただし、3つ以上の実験を体系的に比較することは依然として困難である。統合されたバイオインフォマティクスデータベースとともに複数の実験のデータを視覚化することは特に困難になる。ベン図は、複数の実験間で遺伝子リストを比較するために広く使用されている。 GeneVenn(Pirooznia et al、2007)、Venny(Oliveros、2015)、およびInteractiVenn(Heberle et al、2015)は、現在使用されているWebベースツールの例である。しかしながら、それらは重大な制限を有する:(1)gene IDを遺伝子機能に結び付けることはできない。Biological pathwayおよび遺伝子オントロジー(GO)などのバイオインフォマティクスデータベースを統合することはできない。 (2)グラフに遺伝子発現量を表示することはできない。 (3)ベン図で興味を引く可能性がある共通または固有の遺伝子は、遺伝子発現値および遺伝子機能では抽出できない。
本著者らは、上記の制限を克服し、生物学者が彼らの遺伝子リストを視覚化し、biological pathwayおよびGOデータベースからの統合された知識に基づいて生物学的仮説を生成するのを助けるインタラクティブなwebベースのツールを提供する。このツールを使用すると、研究者は遺伝子リストを比較および視覚化するだけでなく、関心のある遺伝子機能に基づいてグラフ内の遺伝子ノードをサブセット化または強調表示することもできる。このツールはユーザーフレンドリーで、force-directed focus packageを使用して大量の入力データを処理できる(ref.1)。ユーザーは結果/情報テーブルから重要な遺伝子情報を抽出およびダウンロードし、publication品質の高解像度画像をダウンロードできる。
DiVennは、PHP、JavaScript、R、D3.js(Bostock et al、2011)、およびMySQLデータベースを使用して開発された。データの視覚化のフローチャートを論文図1に示す。DiVennは現在、2種類の入力データを受け入れる。(1)2列のタブ区切りのカスタムデータ。例えば、 gene IDsおよび対応するpathwayデータ、転写因子およびそれらによって調節される下流の遺伝子、ならびにマイクロRNAおよび対応する標的遺伝子などである。 2列目は「1」または「2」でなければならない。 (2)遺伝子発現データ。 1列目は gene IDs、2列目は遺伝子制御値である。遺伝子調節値は、differentially expressed (DE) 遺伝子から得られるべきである。使用者は、倍数変化のカットオフ値(例えば、2倍変化)を選択してそれらのDE遺伝子を定義できる。この遺伝子調節値を単純化するために、本著者らは、使用者が自身の倍数変化のカットオフ値に基づいて、上方調節遺伝子を表すために「1」を、下方調節遺伝子を表すために「2」を用いることを要求する。ユーザーが自分の遺伝子をKEGG pathway(Kanehisa et al、2019)またはGOデータベースにリンクする必要がある場合、DiVennではKEGG pathwayおよびGOデータベースが利用可能な14のモデル生物種がサポートされている。現在、3種類のgene IDs、すなわち KEGG gene IDs、Uniprotgene ID(UniProt、2008)、およびNCBI gene ID(Benson et al、2018) がpathway解析に受け入れられている。DiVennによるd分析には、すべてのagriGO(Du et al、2010; Tian et al、2017)がサポートするIDが受け入れられる。 DiVennでは、ユーザーはネットワークグラフ内の最大8つの遺伝子リストを比較して視覚化することができる。(以下略)
https://github.com/noble-research-institute/DiVenn
DiVenn Tutorial
ブラウザ
All modern browsers, such as Safari, Google Chrome, and IE are supported. The recommended web browser is Chrome.
使い方
DiVennの解析前に、(ユーザー指定のcut-off条件で)それぞれのトランスクリプトーム解析データから発現変動遺伝子セットが抽出されていないといけない。
http://divenn.noble.org にアクセスする。
オーサーが公開しているYou tube動画と同じ流れで説明する。
生物種を選択する。現在14のモデル生物種に対応している。
ここではArabidospsisを選択。
実験データ数を選択する。ここでは実験データ3つのDEGセットを比較するとして3を選択。
"Load Sample Data"ボタンをクリック。
それぞれのウィンドウ内にsampleデータが読み込まれた。データの1列目がgene IDs、2列目が発現パターンになる。発現パターンは、ユーザーが指定の条件でフィルタリングして得たDEGのセットの発現パターンで(ユーザー指定のcut-off条件でDEGは抽出済みのはず)、数値の1か2のみ受け付ける。1は up-regulated、2は down-regulatedを表す。
視覚化後、オプションのpathway解析まで行うためには、KEGG、Uniprot (UniProt, 2008)、 NCBI (Benson, et al., 2018)のgene IDを使う必要がある。
表示される実験名を変えたいならウィンドウに手打ちする。Exp1からexperiment1に変更した。
--補足--
実際の解析時にはデータを含むテキストファイルをuploadする。
-------------
一番下のsubmitボタンを押し、視覚化を実行する。
視覚化結果
色は以下のような情報を表す。
従来のベン図では実験間で共通/固有のDEG数しか表現されない。一方、見てわかるようにこのインタラクティブなグラフは、実験間で共通/固有のDEGに加え、各々のDEGが誘導か抑制なのか、クリックすることで後述する遺伝子名、gene IDs、GO term、KEGG pathway情報まで表現できる。さらに、GO enrichment 解析やpathway enrichment解析を視覚的に確認しながら進めることが可能(後半で説明しているが、リストのGO termやpahway情報とフィッシャー検定結果がその場で表にまとめられるので、興味あるリストのみ選択して再描画できる)。
個人的な意見として、共通/固有のDEG数は一般的なベン図の方が判断しやすいと思う。
図はマウスのホイール上下やTrackpadの上下で拡大縮小したり、nodeをドラッグして操作できる。もとに戻したい時は十字アイコンの真ん中のRESETをクリックする。
nodeの上で右クリックすることで、gene IDsの表示/非表示を選択可能。
一括表示。
ノードの上で右クリックしてGene detailをクリックすると、GO termやGO IDなどの情報が表示される。
KEGG、Uniprot、 NCBI のgene IDsも表示されている。
一括表示/非表示は右上のメニューからも実行できる。
メニューではnodeの色も変更可能。
表示されている遺伝子群について、エンリッチされたKEGG pathwayとGO termを調べることができる。メニューのShow Gene DetailsからPathwayかGOを選択。
pahwayを選択した。しばらく待ってから下の方にスクロールすると表が出現している。
表のgene IDをクリックすると、ノードを右クリックしたときと同様詳細が表示できる。
pathway列にpathwayの情報がある場合、文字をクリックするとそのKEGG pathwayに飛ぶ。
KEGG pathwayではその生物種でアサインされているものが緑色で表示される。基礎的な話になるが、上の図では、この生物種(ここではシロイヌナズナ)でKEGG pathwayにアサインされているαリノレン酸代謝系酵素遺伝子が緑色になっている(ユーザーがこのDiVennで使用したDEGリストにあった遺伝子では無い)。
ここでは特にエンリッチされていそうなpathwayを調べたい。表の一番上のpathwayボタンを押し、pathwayでソートし直す。
検索効率を上げるため、左上から表示件数を変更。50 => 200にした。
多いpathwayを探す。p valueをみて増えてそうなpathwayが見つかったら、各行の 右端にあるチェックboxに✔︎をつけて選択していく。
shiftキーを押しながら一番上と一番下をサンドすることで該当pathwayを一気に選択可能。
一番下までスクロールし、Only Redraw Selectedにチェックをつけ、Redrawボタンをクリック。
一番上に戻ると、選択したgene IDsのみが描画されている。
DiVennによって生成されたグラフは、右上のメニューからPNGかSVGとして出力、ダウンロードできます。
ノードはクリックしたりドラッグして移動できます。重要な遺伝子を真ん中に配置するなどして整えてから出力するといいと思います。
引用
DiVenn: An Interactive and Integrated Web-Based Visualization Tool for Comparing Gene Lists
Liang Sun, Sufen Dong, Yinbing Ge, Jose Pedro Fonseca, Zachary T. Robinson, Kirankumar S. Mysore, Perdeep Mehta
Front Genet. 2019; 10: 421
関連
agriGO