macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(Omics向け) 従来のベン図表現を拡張する DiVenn

 

 ハイスループットデータ技術の進歩により、詳細な分析なしに膨大な量の遺伝子発現データが生成されてきた。例えば、INVEX (Xia et al., 2013)、ExAtlas (Sharov et al., 2015)、そしてWebGIVI (Sun et al., 2017)などのいくつかのウェブベースの視覚化ツールは、発現データ分析において首尾よく使用された。ただし、3つ以上の実験を体系的に比較することは依然として困難である。統合されたバイオインフォマティクスデータベースとともに複数の実験のデータを視覚化することは特に困難になる。ベン図は、複数の実験間で遺伝子リストを比較するために広く使用されている。 GeneVenn(Pirooznia et al、2007)、Venny(Oliveros、2015)、およびInteractiVenn(Heberle et al、2015)は、現在使用されているWebベースツールの例である。しかしながら、それらは重大な制限を有する:(1)gene IDを遺伝子機能に結び付けることはできない。Biological pathwayおよび遺伝子オントロジー(GO)などのバイオインフォマティクスデータベースを統合することはできない。 (2)グラフに遺伝子発現量を表示することはできない。 (3)ベン図で興味を引く可能性がある共通または固有の遺伝子は、遺伝子発現値および遺伝子機能では抽出できない。

 本著者らは、上記の制限を克服し、生物学者が彼らの遺伝子リストを視覚化し、biological pathwayおよびGOデータベースからの統合された知識に基づいて生物学的仮説を生成するのを助けるインタラクティブなwebベースのツールを提供する。このツールを使用すると、研究者は遺伝子リストを比較および視覚化するだけでなく、関心のある遺伝子機能に基づいてグラフ内の遺伝子ノードをサブセット化または強調表示することもできる。このツールはユーザーフレンドリーで、force-directed focus packageを使用して大量の入力データを処理できる(ref.1)。ユーザーは結果/情報テーブルから重要な遺伝子情報を抽出およびダウンロードし、publication品質の高解像度画像をダウンロードできる。
DiVennは、PHPJavaScript、R、D3.js(Bostock et al、2011)、およびMySQLデータベースを使用して開発された。データの視覚化のフローチャートを論文図1に示す。DiVennは現在、2種類の入力データを受け入れる。(1)2列のタブ区切りのカスタムデータ。例えば、 gene IDsおよび対応するpathwayデータ、転写因子およびそれらによって調節される下流の遺伝子、ならびにマイクロRNAおよび対応する標的遺伝子などである。 2列目は「1」または「2」でなければならない。 (2)遺伝子発現データ。 1列目は gene IDs、2列目は遺伝子制御値である。遺伝子調節値は、differentially expressed (DE) 遺伝子から得られるべきである。使用者は、倍数変化のカットオフ値(例えば、2倍変化)を選択してそれらのDE遺伝子を定義できる。この遺伝子調節値を単純化するために、本著者らは、使用者が自身の倍数変化のカットオフ値に基づいて、上方調節遺伝子を表すために「1」を、下方調節遺伝子を表すために「2」を用いることを要求する。ユーザーが自分の遺伝子をKEGG pathway(Kanehisa et al、2019)またはGOデータベースにリンクする必要がある場合、DiVennではKEGG pathwayおよびGOデータベースが利用可能な14のモデル生物種がサポートされている。現在、3種類のgene IDs、すなわち KEGG gene IDs、Uniprotgene ID(UniProt、2008)、およびNCBI gene ID(Benson et al、2018) がpathway解析に受け入れられている。DiVennによるd分析には、すべてのagriGO(Du et al、2010; Tian et al、2017)がサポートするIDが受け入れられる。 DiVennでは、ユーザーはネットワークグラフ内の最大8つの遺伝子リストを比較して視覚化することができる。(以下略)

 

チュートリアル

https://github.com/noble-research-institute/DiVenn

DiVenn Tutorial


ブラウザ

All modern browsers, such as Safari, Google Chrome, and IE are supported. The recommended web browser is Chrome.

 

使い方 

DiVennの解析前に、(ユーザー指定のcut-off条件で)それぞれのトランスクリプトーム解析データから発現変動遺伝子セットが抽出されていないといけない。

 

http://divenn.noble.org にアクセスする。

f:id:kazumaxneo:20190616202049p:plain

 オーサーが公開しているYou tube動画と同じ流れで説明する。

 

生物種を選択する。現在14のモデル生物種に対応している。

f:id:kazumaxneo:20190619025013p:plain

ここではArabidospsisを選択。

 

実験データ数を選択する。ここでは実験データ3つのDEGセットを比較するとして3を選択。  

f:id:kazumaxneo:20190616204821p:plain

 

"Load Sample Data"ボタンをクリック。

f:id:kazumaxneo:20190616204855p:plain

それぞれのウィンドウ内にsampleデータが読み込まれた。データの1列目がgene IDs、2列目が発現パターンになる。発現パターンは、ユーザーが指定の条件でフィルタリングして得たDEGのセットの発現パターンで(ユーザー指定のcut-off条件でDEGは抽出済みのはず)、数値の1か2のみ受け付ける。1は up-regulated、2は down-regulatedを表す。

視覚化後、オプションのpathway解析まで行うためには、KEGG、Uniprot (UniProt, 2008)、 NCBI (Benson, et al., 2018)のgene IDを使う必要がある。

 

表示される実験名を変えたいならウィンドウに手打ちする。Exp1からexperiment1に変更した。

f:id:kazumaxneo:20190619015042p:plain

 

--補足--

実際の解析時にはデータを含むテキストファイルをuploadする。

f:id:kazumaxneo:20190616205116p:plain

-------------

 

 

一番下のsubmitボタンを押し、視覚化を実行する。

f:id:kazumaxneo:20190616210529p:plain

  

視覚化結果

f:id:kazumaxneo:20190616210559p:plain

色は以下のような情報を表す。

f:id:kazumaxneo:20190616210738p:plain

従来のベン図では実験間で共通/固有のDEG数しか表現されない。一方、見てわかるようにこのインタラクティブなグラフは、実験間で共通/固有のDEGに加え、各々のDEGが誘導か抑制なのか、クリックすることで後述する遺伝子名、gene IDs、GO term、KEGG pathway情報まで表現できる。さらに、GO enrichment 解析やpathway enrichment解析を視覚的に確認しながら進めることが可能(後半で説明しているが、リストのGO termやpahway情報とフィッシャー検定結果がその場で表にまとめられるので、興味あるリストのみ選択して再描画できる)。

個人的な意見として、共通/固有のDEG数は一般的なベン図の方が判断しやすいと思う。

 

図はマウスのホイール上下やTrackpadの上下で拡大縮小したり、nodeをドラッグして操作できる。もとに戻したい時は十字アイコンの真ん中のRESETをクリックする。

f:id:kazumaxneo:20190616212158p:plain


nodeの上で右クリックすることで、gene IDsの表示/非表示を選択可能。

f:id:kazumaxneo:20190616210702p:plain

 

一括表示。

f:id:kazumaxneo:20190619022517p:plain

 

ノードの上で右クリックしてGene detailをクリックすると、GO termやGO IDなどの情報が表示される。

f:id:kazumaxneo:20190619022610p:plain

KEGG、Uniprot、 NCBI のgene IDsも表示されている。

 

一括表示/非表示は右上のメニューからも実行できる。

f:id:kazumaxneo:20190616211714p:plain

メニューではnodeの色も変更可能。

f:id:kazumaxneo:20190616211652p:plain

 

 

表示されている遺伝子群について、エンリッチされたKEGG pathwayとGO termを調べることができる。メニューのShow Gene DetailsからPathwayかGOを選択。

f:id:kazumaxneo:20190616211844p:plain

 

pahwayを選択した。しばらく待ってから下の方にスクロールすると表が出現している。 

f:id:kazumaxneo:20190616212529p:plain

 

表のgene IDをクリックすると、ノードを右クリックしたときと同様詳細が表示できる。

f:id:kazumaxneo:20190616214156p:plain

 

pathway列にpathwayの情報がある場合、文字をクリックするとそのKEGG pathwayに飛ぶ。

f:id:kazumaxneo:20190616213806p:plain

KEGG pathwayではその生物種でアサインされているものが緑色で表示される。基礎的な話になるが、上の図では、この生物種(ここではシロイヌナズナ)でKEGG pathwayにアサインされているαリノレン酸代謝酵素遺伝子が緑色になっている(ユーザーがこのDiVennで使用したDEGリストにあった遺伝子では無い)。

 

ここでは特にエンリッチされていそうなpathwayを調べたい。表の一番上のpathwayボタンを押し、pathwayでソートし直す。

f:id:kazumaxneo:20190616212808p:plain

 

検索効率を上げるため、左上から表示件数を変更。50 => 200にした。

f:id:kazumaxneo:20190616212708p:plain

 

 

多いpathwayを探す。p valueをみて増えてそうなpathwayが見つかったら、各行の 右端にあるチェックboxに✔︎をつけて選択していく。

f:id:kazumaxneo:20190616212731p:plain

shiftキーを押しながら一番上と一番下をサンドすることで該当pathwayを一気に選択可能。

 

一番下までスクロールし、Only Redraw Selectedにチェックをつけ、Redrawボタンをクリック。

f:id:kazumaxneo:20190616212959p:plain

 

一番上に戻ると、選択したgene IDsのみが描画されている。

f:id:kazumaxneo:20190616213139p:plain

 

DiVennによって生成されたグラフは、右上のメニューからPNGSVGとして出力、ダウンロードできます。

ノードはクリックしたりドラッグして移動できます。重要な遺伝子を真ん中に配置するなどして整えてから出力するといいと思います。

引用
DiVenn: An Interactive and Integrated Web-Based Visualization Tool for Comparing Gene Lists
Liang Sun, Sufen Dong, Yinbing Ge, Jose Pedro Fonseca, Zachary T. Robinson, Kirankumar S. Mysore,  Perdeep Mehta

Front Genet. 2019; 10: 421

 

関連

agriGO