macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

: 高次元データのクラスタリングと可視化のためのインタラクティブな教育用ウェブリソース ClusterEnG

 

 クラスタリングは、何らかの尺度に従って類似したデータポイントをグループ化することにより、大規模データセットの構造を発見するための最も強力で広く利用されている分析手法の一つである。R(R Core Team, 2015)やPython(Pedregosa et al., 2011)のようないくつかのプログラミング言語は、カスタムデータをクラスタリングし、静的プロットを生成するためのライブラリまたはパッケージを提供している。しかし、ユーザがより深いレベルでデータを理解するのを助けるインタラクティブな可視化は、追加のライブラリや外部ソフトウェアを必要とする。ClustVis(Metsalu et al、2015)のようなWebサーバーは、主成分分析(PCA)やヒートマッププロットを可視化するためのシンプルでありながら強力なインターフェースを提供している。しかし、現在のところ、ClustVisではファイルのアップロードサイズが2MBに制限されており、プロットも静的なものになっている。

 次世代シーケンシングの出現により、研究者はこれまでにないスピードでビッグデータを生成することが可能になった。そのため、高次元の生物学的データの利用者が、クラスタリングなどの「初歩的な」解析を迅速に実行できるようなリソースが急務となっている(Stephens et al、2015)。このようなリソースを構築するための主な課題は、ビッグデータを扱うことと、その解釈を容易にすることである。クライアント側のコンピュータシステムやWebブラウザは、データを効率的にナビゲートするのに十分なパワーを持っているとは限らない。NIHは最近、この種の課題に取り組むためのBig Data to Knowledge (BD2K)センターに資金を提供している。KnowEnG BD2Kセンターの一環として、本著者らは、効率的な並列アルゴリズムとソフトウェアコンテナ化によるビッグデータクラスタリングのためのClusterEnG(Clustering Engine for Genomicsの頭文字をとったもの)と呼ばれるウェブベースのリソースを開発した。高次元データの可視化を容易にするために、最も一般的な次元削減技術の一つであるPCAの対話型バージョンを実装した。ClusterEnGの2Dと3Dの主成分プロットは、データ内の構造を直感的に探索することを可能にする。論文図1は、ユーザーがアップロードしたデータから出力される可視化までのClusterEnGの様々なコンポーネントフローチャートを示している。

 ClusterEnGは行列の表形式のデータを受け付け、RNA-seq、マイクロアレイ、薬物反応データなどの典型的な生物学的実験で生成されたほとんどのデータセットを分析することができる。入力データはdata.tableパッケージから高速で便利な "fread "関数を利用してRで読み込まれる(Dowle et al., 2014)。ClusterEnGサーバは現在1GBまでのファイルを受け付けているが、将来的には増加する予定である。アップロードされたファイルは7日間サーバに安全に保存され、その間、ユーザはファイルを取得したり、同じブラウザ(クッキーを有効にして)からより多くのジョブを実行したりすることができる。

(一部略)

 ClusterEnGは、2つのアルゴリズムの並列実装を含む7つのクラスタリングアルゴリズムを提供する。現在、シリアル実装は、CRANリポジトリで利用可能な様々なパッケージを用いてRプログラミング言語で記述されている(R Core Team, 2015)。7つのアルゴリズムは、k-means、k-medeedids、アフィニティ伝播、スペクトルクラスタリングガウス混合モデル、階層的クラスタリング、およびDBSCANを含む(Ester et al. k-meansアルゴリズムの並列コードはC言語で書かれたソフトウェアパッケージを利用しており(Liao, 2005)、スペクトルクラスタリングの並列コードはC++コードを利用している(Chen et al., 2011)。アルゴリズムの選択肢を提供することに加えて、ユーザーは、アルゴリズムのサブセットのために一般的に使用されるパラメータのリストを与えられ、修正して、変更したものを可視化することができる(図2)。

 

webサービス 

http://education.knoweng.org/clustereng/ にアクセスする。

f:id:kazumaxneo:20200411235748p:plain

 

1、ファイルをアップロードする。

f:id:kazumaxneo:20210224211453p:plain

 

以下のフォーマットに対応している(左側)。

f:id:kazumaxneo:20200423213226p:plain

 

ここではexample dataを選んだ(ファイルアップロード前はデフォルトでこのexample dataが選択されている)。

f:id:kazumaxneo:20210224211611p:plain


そのまま下のstep2に進む。クラスタリング手法を選ぶ。

f:id:kazumaxneo:20210224211719p:plain


iマークをクリックすると右側に簡単な解説が表示される。

f:id:kazumaxneo:20210224211855p:plain

 

クラスタリング手法を選ぶ。ここではk-meansを選び、クラスター数を5と指定した。

f:id:kazumaxneo:20210224212713p:plain

 

テストした時はrunningから先に進めなかった。

f:id:kazumaxneo:20210224235707p:plain

 

引用
ClusterEnG: an interactive educational web resource for clustering and visualizing high-dimensional data

Manjunath M, Zhang Y, Yeo SH, Sobh O, Russell N, Followell C, Bushell C, Ravaioli U, Song JS

PeerJ Comput Sci. 2018;4. pii: e155

 

関連