macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

インタラクティブなヒートマップを簡単に作成できるwebツール shinyheatmap

 

 ヒートマップソフトウェアは、一般に、静的ヒートマップソフトウェア (static heatmap software) [論文より ref.1-9]とインタラクティブヒートマップソフトウェア (interactive heatmap software) [ref.10-20]の2つのカテゴリに分類することができる。静的ヒートマップは、元のデータからカラー画像として生成されたゲノムアクティビティのスナップショット画像である。インタラクティブヒートマップはダイナミックパレットで、ヒートマップの内容をズームインまたはズームアウトして、特定の領域、クラスタ、または単一の遺伝子を調べると同時に、特定の行にマウスポインタを置くことができ、個々の細胞の内容(例えば、遺伝子名、発現レベル、および列名)に関する情報を収集できる。インタラクティブなヒートマップは、大きな遺伝子発現データセットを視覚化するために特に重要である。個々の遺伝子標識は、大型の入力データマトリックスの静的ヒートマップに見られる共通の欠点であるテキストオーバーラップによって、最終的に解読できなくなる。そのため、インタラクティブなヒートマップは、大規模な遺伝子発現データセットの全体的なlandscapeを調べる際に人気がある。同時に、ユーザーがヒートマップの特定の領域を拡大して見ることも可能になる(すなわち、さまざまな解像度レベルで) 。現在、さまざまな解像度で何百万ものデータポイントを視覚的に拡大することができる最新のライブラリが急務となっている。一般に、ビッグデータビジュアライゼーションソフトウェア[ref.22]のフロントエンドアルゴリズムとバックエンドアルゴリズムのオンザフライ計算には、インタラクティブなナビゲーションとさまざまな解像度レベルでのスムーズなスケーリングを実現する新しいソフトウェアインフラストラクチャが必要である。

 静的ヒートマップは依然として多くの研究において好ましいタイプのpublication figureであるが、インタラクティブヒートマップは、個々の数値がユーザ指定の色としてレンダリングされるデータセットの特定のセクタを強調し視覚化するために、 PCA、差分表現、遺伝子オントロジー、ネットワーク解析などの統合された統計的およびゲノム解析スイートとインタラクティブなヒートマップソフトウェアを相乗させることなどにより、ヒートマップ視覚化分野をデータ分析分野に段階的に移行している[ref.18 、23]。しかしながら、現在存在するインタラクティブなヒートマップソフトウェアは入力ファイルサイズ上限により機能的に有用性の範囲が制限される。例えばヒートマップ生成にpheatmap Rパッケージ[ref.9]を採用しているClustviz [ref.23]では、パフォーマンス上の理由から1000行を超える入力データセットは推奨されていない[ref.24]。同様に、MicroScopeでは、入力データセットの差分解析を最初に行い、統計的に有意な遺伝子のみを包含しレンダリングされる行数を縮小するよう促される[ref.18]。標準的な考え方は、静的ヒートマップがズーム可能ではないため、読みにくさなどのさまざまな要因の組み合わせによる大きなヒートマップの生成を避けることだった。大規模なインタラクティブなヒートマップでは、スーパーコンピュータレベルのメモリリソースで効率的な遅延フリーのズーミングとパンニングを実行する必要があるため、計算上不可能である(ref.25-31)。大きなヒートマップには多くの情報が含まれているため、標準的な推奨アプローチでは、入力データ行列をプリエンプティブに小さなサイズにサブセット化することが行われており[ref.32]、不明瞭な解釈がある。

 しかしながら、多くの場合、NGS主導の研究では10^4程度のデータセット(例えば、個々のエキソンを表す400,000行までのHTA 2.0アレイ[ref.33]などのトランスクリプトーム研究)が生成される。同様に、シングルセルのRNA-seq研究では、数千から数十万の細胞のデータセットが作成されることがある(ref.34,35)。現在、このような大きなデータをインタラクティブに視覚化することは、この方向の既存の努力にもかかわらず、既存の最先端の方法論でも不可能である[ref.36,37]。そのような前例のないサイズスケールでインタラクティブなヒートマップを視覚化する計算能力をアンロックすることで、研究者は高次元の数値データを細胞の色付きのグリッドとして調べることができる。ますます洗練されているインタラクティブなヒートマップソフトウェアの登場と、ビッグデータの登場、インタラクティブな探索方法に対するコミュニティの関心が高まるにつれて、大規模でインタラクティブなヒートマップの作成を妨げる計算上の制限に対処する緊急の必要性が生じている。このようなヒートマップは、全体的な遺伝子発現パターンおよび個々の遺伝子の両方のlandscapeを視覚化するために有益であろう。これらの目的を達成するために、著者らは、Webブラウザで高度にカスタマイズ可能な静的なインタラクティブなヒートマップを効率的に作成することができる、超高速で低メモリの使いやすいヒートマップソフトウェアスイートを提案する。

 

Github

 

shinyheatmapに関するツイート


実行方法

http://shinyheatmap.comにアクセスする。

f:id:kazumaxneo:20180918204322p:plain

 

テストデータのCSVを表示してみる。

ログの下のミドルサイズデータセットをクリックしてダウンロードする。 f:id:kazumaxneo:20180919203702p:plain

 

ダウンロードしたファイルをBrowseボタンからアップロードする。

 

Static Heatmap 

f:id:kazumaxneo:20180920092355j:plain

デフォルトでは、低発現の遺伝子が緑、中発現の遺伝子が色なし、高発現の遺伝子が赤になっている。

f:id:kazumaxneo:20180920092411j:plain

中発現を黒に変え、Choose Y Font Size:をいじってY軸のフォントサイズを大きくした。

f:id:kazumaxneo:20180920092637j:plain

Apply Clustering:からクラスタリングも実行できる。クラスタリング手法(デフォルトではcomple linkage clusterling)と距離(デフォルトではユークリッド距離)はそれぞれLinkage Algorithm:Distance Metric:から変更可能。 f:id:kazumaxneo:20180920093935j:plain

 

上のタブからInteractive Heatmapに切り替える。

f:id:kazumaxneo:20180920094044j:plain

マウスオーバーで遺伝子名が表示される。

f:id:kazumaxneo:20180920094131j:plain

ドラッグして囲むことで、特定の領域だけ拡大できる。これは特に字が潰れるような大きなデータセットで役に立つ。

f:id:kazumaxneo:20180920094256j:plain

右上のアイコンからも拡大縮小が可能。Panボタンを使えば自由に移動することもできる。

f:id:kazumaxneo:20180920094343j:plain

 

左下からクラスタリングしたデータもダウンロードできる。 

 

データが重いと多少待ち時間が発生するようです。慌てずに操作してください。 巨大なデータなら fastheatmap(Super high performance interactive heatmap software)も試して見て下さい(論文 図3(リンク)より)。

http://fastheatmap.com

 

引用

shinyheatmap: Ultra fast low memory heatmap web interface for big data genomics
Khomtchouk BB, Hennessy JR, Wahlestedt C

PLoS One. 2017 May 11;12(5):e0176334