macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

共通 / 非共通の遺伝子リストなどをベン図やヒートマップで視覚化する intervene

 

 次世代のシークエンシングベースのハイスループットアッセイによって生成されたトランスクリプトームデータ、ゲノムデータ、およびエピゲノムデータの効果的な可視化は、大きな関心の対象となっている。そのようなアッセイによって生成されたデータセットのほとんどは、遺伝子または変異体のリスト、およびゲノム領域セットである。ゲノム領域セットは、転写因子 - DNA相互作用、転写開始部位、ヒストン修飾、DNase hypersensitivity siteなどの特定の機能のゲノム位置を表す。これらのフィーチャの解釈における一般的な仕事は、異なるサンプル、実験条件、または細胞と組織の種類に由来する、そのようなセット間の類似点、相違点、および濃縮度を見つけることである。

 古典的には、遺伝子リストのような異なる集合間の交差(intersection)または重複(overlap)は、Venn diagrams[ref.1](以後、ベン図)またはEdwards-Venn [ref.2, book link]によって表される。集合の数が4を超えると、そのような図は複雑になり、解釈が困難になる。重要な課題は、n個の集合を検討するときに視覚的に表すために2 n個の組み合わせがあることである。 3つ以上の集合の交差を表すために、別のアプローチUpSetプロットが導入された[ref.3]。 UpSetプロットの利点は、交差をランク付けし、交差なしの組み合わせを非表示にすることができることである。これは、ベン図では実現できない。しかし、集合の数が多いと、UpSetプロットは集合の交差を表すには無効な方法になる。多数の集合を視覚化するために、参考文献[ref.4 link]で示唆されているように、クラスター化ヒートマップを使用してペアワイズ交差を表すことができる。

 ベン図を使用して最大6つのリストセットの交差と視覚化を計算するために使用できるWebアプリケーションとRパッケージがいくつかある。ゲノム領域セットの交差を実行するためのツールは存在するが[ref.5] [ref.7]、それらを視覚化するために利用できるツールは限られている[ref.5、6]。著者らの知る限りでは、ゲノム領域セットに対してUpSetプロットを作成するためのツールは存在しない。その結果、ゲノム領域と遺伝子/リストの組の両方の複数の組の交差を計算し視覚化するための統合的なツールが非常に必要とされている。

 このニーズに応えるために、ゲノム領域とベン図、アップセットプロット、またはクラスターヒートマップの交差を計算して視覚化するための使いやすいコマンドラインツールであるInterveneを開発した。さらに、プロットセットをさらにカスタマイズするためにリストセットまたはInterveneの出力をアップロードする対話型Webアプリケーションコンパニオンを提供する。

 Interveneは、交差の視覚的表現をカスタマイズするためのインタラクティブなShiny Webアプリケーションとともに、コマンドラインツールとして提供されている。コマンドラインツールはPython(バージョン2.7)とRプログラミング言語(バージョン3.3.2)で実装されている。このビルドはPythonバージョン3.4、3.5、および3.6でも動作する。付随するWebインターフェースは、RのWebアプリケーションフレームワークであるShiny(バージョン1.0.0)を使って開発されている。 Webアプリケーションでは、さまざまな種類のベン図はRパッケージVenerable [ref.10]、UpSetプロットではUpSetR、ペア交差ヒートマップではheatmap.2とCorrplotを使用する。 Web ShinyAppのUpSetモジュールは、UpSetプロットをカスタマイズするためのオプションや機能を追加することで拡張されたUpSetR [ref.8] ShinyAppから派生した。

 導入にはpip install interveneを使用するか、bitbucket https://bitbucket.org/CBGR/interveneで入手可能なソースコードを使用してインストールできる。このツールはLinuxおよびMACシステムでテスト済みである。 Shiny WebアプリケーションはRStudioによってshinyapps.ioでホストされており、すべての最近のWebブラウザと互換性がある。インストール手順とツールの使用方法を含む詳細な資料は、追加ファイル1にあり、http://intervene.readthedocs.ioから入手できる。

 

Documentation

Intervene Documentation — A tool for intersection and visualization of multiple gene or genomic region sets

Interactive Shiny App

https://intervene.readthedocs.io/en/latest/shinyapp.html

Example gallery (Github)

intervene/examples.rst at master · asntech/intervene · GitHub

 

Bitbucket

ここではweb版の手順のみ説明します。ローカルへのインストール手順はBitbucketで確認できます。インストールして端末から走らせれば、ワンライナーで実行できます。 

 

使い方

mac os10.12のsafariブラウザでテストした。

https://asntech.shinyapps.io/intervene/にアクセスする。

f:id:kazumaxneo:20190202163128j:plain

左のメニューから項目を選択する。3項目ある。

 

1、Venn diagram  ベン図を描く。

ここではexampleファイル(CSVファイル)を読み込む。ファイルの中身は4条件の(なんらかの方法で絞り込んだ)遺伝子リスト。

f:id:kazumaxneo:20190202164352j:plain

 

Uploadボタンからアップロードする。

f:id:kazumaxneo:20190202163439j:plain

Uploadが終わるとすぐに図が描画される。

 

Settingsからその場で外観を変更できる。下は要素数に応じてサイズが変化するChow-Ruskey。

f:id:kazumaxneo:20190202163745j:plain

フォントの種類、フォントのサイズ、色、オブジェクトの線の種類も変更できる。調整が終わったら右下からダウンロードする。

 

 

2、UpSet   intersectionをUpsetプロットで可視化。

 

 読み込んだのは先ほどと同じデータ(CSVファイル)。

f:id:kazumaxneo:20190202171007j:plain

リストファイル以外に、1/0で表現したバイナリーファイルの読み込みにも対応している(example binary file参照)。

 

Settingsからグラフのサイズ調整を行い、図をダウンロードする。

f:id:kazumaxneo:20190202174003j:plain

4条件それぞれの組み合わせのintersection個数が全部の組み合わせで表されている(下のドットが組み合わせを表す)。例えばpro-BとTh-cellで交差している(パターンが同じ)遺伝子の数は52。 

 

 

3、Pairwise   総当たりのintersection

全条件の行列ファイル(すでに総当たりで交差の数をカウントしたデータ)を用意する。下はexampleファイル。

f:id:kazumaxneo:20190202180451j:plain

縦横の個数は同じ。

または、上の例のようなリストファイルを用意し、それを読み込ませ、交差の数をサンプル間総当たり(all vs all)で計算させる。

 

読み込むとすぐに描画される。テスト時は拡張子をtxtからcsvにしないと読み込めなかった。

f:id:kazumaxneo:20190202214312p:plain

exampleのセパレータはtabだったので、”tab"ボタンを選択した。 

 

Settingsで、相関係数とhclustでクラスタリングするメソッド(hclustリンク)、ユークリッド距離などの距離行列の計算手法を指定する。

f:id:kazumaxneo:20190202182039j:plain



図のサイズ調整も行い、完了したら図をダウンロードする。

f:id:kazumaxneo:20190202181058j:plain

 interactiveヒートマップからはインタラクティブに操作できるヒートマップ(htmlファイル)をダウンロードできる。

f:id:kazumaxneo:20190202215246p:plain

 

Corrplot、method "pie"

f:id:kazumaxneo:20190202221034p:plain

 

引用
Intervene: a tool for intersection and visualization of multiple gene or genomic region sets
Aziz Khan, Anthony Mathelier

BMC Bioinformatics. 2017; 18: 287

 

関連