Webベースのデータ分析プラットフォーム NASQAR

2020 9/6 追記

　次世代シーケンシング（NGS）テクノロジーの急速な進歩により、ゲノムデータは近年大幅に成長している[ref.1、2]。一般的なアプリケーションには、de novoゲノムシーケンス;ゲノム変異、転写因子結合部位、クロマチン修飾、クロマチンアクセシビリティ、および3Dクロマチン立体構造のマッピング。これらのシングルセルバージョン（例[ref.3]）および新しいメソッド—空間トランスクリプトミクス（例[ref.4]）、CRISPRベースの画面（例[ref.5]）、マルチモーダルプロファイリング（タンパク質の同時定量化など）そして、mRNA、例えば[ref.6]）、トランスクリプトームプロファイリングが含まれる。新しい技術革新が現場に来ると急速に利益を上げている（例[ref.7、8]）。データ量とアプリケーションの多様性が増大し続けるにつれて、これらのデータセットの分析と視覚化のためのソフトウェアライブラリとツールの数も増大する。ゲノムデータ分析に利用できるツールの多くは、計算経験が必要であり、グラフィカルユーザーインターフェイス（GUI）を欠いているため、仕事に依存している多くの研究者がアクセスできない。一般的な課題には次のものがある。

さまざまなプログラミング/スクリプト言語（R、Python、シェルなど）の知識と経験
データ変更：特定のツールで使用するための前処理と再フォーマット
限られた計算リソース（CPU、メモリ、ディスクストレージ）
ソフトウェアパッケージと依存関係のインストール。多くの必要なタスクがある。
ソフトウェアまたはハードウェアの要件を満たし、ソフトウェアの依存関係を解決するなどの問題は、時間がかかり退屈である。ある研究[ref.9]では、ランダムに調査された公開済みのオミックスソフトウェアツールのほぼ半分（49％）が「インストールが困難」であることがわかった（*1）。さらに、オペレーティングシステムの更新とハードウェア構成の急速な混乱は、ツールの影響、使いやすさ、および寿命の段階的な低下の一因となる。
アカデミアの研究者によって開発されたソフトウェアツールは、開発リソースの不足、またはクロスプラットフォームの互換性やユーザーインターフェイス設計などのソフトウェアエンジニアリングのベストプラクティスの専門知識の不足により、通常「ユーザーフレンドリー」ではない[ref.9]。例として、利用可能なR GUIベースのツールの多くは、非常に便利で多様な機能を備えているが、単純なエラー処理や有益なフィードバックを欠いている。これにより、ユーザーがこのようなエラーの原因を簡単に特定して解決できない場合、アプリケーションを管理不能にする可能性がある。

　NASQAR（Nucleic Acid SeQuence Analysis Resource）は、一般的な高レベルの分析および視覚化ツールを直感的で魅力的なインターフェースでラップするWebベースのプラットフォームである。このプラットフォームは、以下を提供することにより上記の課題に対処する。

ソフトウェアとインターフェイス設計のベストプラクティスを活用して、一般的に使用される分析パッケージに基づいた使いやすく直感的なツールを作成する。これは、標準のバイオインフォマティクス分析および可視化ワークフローへの参入障壁を低くし、プログラミング経験がほとんどまたはまったくない研究者に大きな独立性を提供するために重要である。プラットフォームは、QC、探索的分析、またはpublicationの準備の整ったデータファイル（正規化されたカウントデータなど）および図（PCAプロット、ヒートマップ、樹形図、UMAP / t-SNEなど）の作成に使用できる。
パーソナルコンピューター、組織のプライベート/パブリックWebサーバー、またはクラウド（AWS、Microsoft Azure、Google クラウドなど）に比較的簡単に展開できるスケーラブルな仮想化アーキテクチャである。仮想化により、ソフトウェアとオペレーティングシステムの依存関係を抽象化できるため、エンドユーザーのインストールの難しさが軽減される。スケーラブルな設計は、公共施設または研究施設内での内部使用のために、複数の同時ユーザーにプラットフォームをオンラインで展開する場合に有利である。
オープンソースパッケージを使用する。これは、学術研究機関にとって特に望ましいものである。
分析カテゴリのモジュール設計。データ前処理、RNA-seq分析、および遺伝子エンリッチメントアプリケーションを相互に分離することにより、ユーザーはこれらの機能を独立して活用できるため、完全に統合されたワークフローよりも分析ステップの汎用性が高まる。

（一部省略）

NASQARは仮想マシンのクラスター上に展開されており、http://nasqar.abudhabi.nyu.edu/で公開されている。 Docker [ref.17]とSwarmはコンテナ化とクラスタ管理を提供し、Traefikリバースプロキシ/ロードバランサー（https://traefik.io/）はリクエストを管理し、スティッキーユーザーセッションを維持する。これは同時ユーザーのShinyアプリケーションのホスティングに不可欠である。スケーラブルな設計により、Docker Swarmクラスターにノードを追加するだけで専用リソースを比較的簡単に増やすことができ、新しいアプリケーションの展開やユーザーベースの拡大に伴う計算需要の増加に柔軟に対応できる。
　NASQARのDockerイメージはDockerHubで公開されており、ローカルコンピューター、公共またはプライベートのインターネットサーバー（研究機関のイントラネットなど）を問わず、あらゆるシステムにシームレスにアプリケーションを展開できる。NASQARで分析するためにオンラインでアップロードされたデータは、ユーザーのセッションが終了するとデフォルトで破棄されるが、これは完全なデータプライバシーを保証するものではない。プライバシーが懸念される場合（患者データなど）、NASQARは制限付きイントラネットまたはパーソナルコンピューターのいずれかに展開できる。さらに、Dockerを使用すると、1回限りのインストールでNASQARツールボックス全体を展開できるため、多数の個々のアプリケーションのさまざまなソフトウェア要件を手動で満たす必要がなくなる。ソースコードはGitHubで公開されており、積極的に保守されている。各アプリケーションは、独自のGitHub リポジトリでホストされ、RまたはR Studioを介して個別にアクセスおよび起動できる。すべてのアプリケーションには、ユーザーがすぐに使い始めて順応できるように、明確なユーザーガイドとデータセットが用意されている。これは、使いやすさを改善し、ツールを採用する際の主要な要因である。

インストール

dockerイメージをpullし、ローカルマシンやサーバーにホスティグして使うことがで、サーバーの混雑度に左右されずに解析が可能になっている。

GIthub

Dockerhub

#pull all application images
docker pull aymanm/nasqarall:latest
docker run -p 80:80 aymanm/nasqarall:latest

ラウンチ後、http://localhost:80/にアクセスする。

webサービス

オーサーらがwebサーバを準備しているので、こちらにアクセスして利用することもできる。ただあまり性能は高くないのかよく接続が切れてしまう。ローカル環境でwebサーバを立ち上げて使う方が良さそうに感じた。

オーサーらのwebサーバを利用する場合、http://nasqar.abudhabi.nyu.edu にアクセスする。

それからCategoriesに移動する。現在、RNA seq関係のツールに加え、シングルセル、メタゲノム、そして最近追加されたCovid-19のツールが並ぶ。

f:id:kazumaxneo:20200412122347p:plain

f:id:kazumaxneo:20200412122355p:plain

RNA seq

リードカウント以後の下流解析のためのアプリケーションが提供されている。画面のウィンドウ部分にマウスカーソルをホバーするとLanuchの文字が表示される。まずはPre-Processingをクリック。Pre-Processingアプリケーションを立ち上げてみる。

１、Pre-Processing

f:id:kazumaxneo:20200412120531p:plain

Pre-Processingは個々の遺伝子カウントファイルをマージするためのシンプルな前処理ツールとなっている。例えばhtseq（紹介）からの出力カウントファイルを入力する。

f:id:kazumaxneo:20200412122621p:plain

CSVファイルをアップロードする。

f:id:kazumaxneo:20200412150925p:plain

読み込まれた。

f:id:kazumaxneo:20200412150932p:plain

RNA seqの他のアプリケーションには、DESeq2のラッパーとして働き、対話式のGUIを提供するDESeq2 Shinyがある。

２、DESeq2 Shiny

f:id:kazumaxneo:20200828221652p:plain

カウントファイルをアップロードする。１因子の実験か多因子の実験r両方に対応している。多因子のexample dataを選択。

f:id:kazumaxneo:20200905173648p:plain

多因子の場合、因子とデータセットの関係を記載する。

f:id:kazumaxneo:20200905175043p:plain

まず因子をコンマ区切りで指定してAddボタンを押し、表に因子のカラムを追加する。

f:id:kazumaxneo:20200905175553p:plain

表を埋めていく。example dataではすでに記載済みになっているが、クリックして修正も可能。

f:id:kazumaxneo:20200905175244p:plain

ローカルに対応表がある場合、デザインファイルとしてアップすることもできるようになっている。

右のInitialize DESeq2 Datasetボタンを押してイニシャライズ。

f:id:kazumaxneo:20200905175949p:plain

rlog transformも行うかどうか指定して、DEseq2の解析を実行する。

f:id:kazumaxneo:20200906125057p:plain

rlogはカウント数の少ない行のサンプル間の差を最小化し，ライブラリサイズに対して正規化する。カウントデータをlog2スケールに変換する。

左のメニューをクリックして先に進む。rlogにチェックをつけている場合、VSTの上にRlogも表示される。

f:id:kazumaxneo:20200905180220p:plain

VST

この関数は、フィットした分散-平均関係から分散安定化変換（VST）を計算し、カウントデータを変換する。具体的にはサイズ係数または正規化係数で除算して正規化。この変換ではライブラリサイズに関しても正規化される。

f:id:kazumaxneo:20200412151015p:plain

外れ値をチェックする場合に有効。

因子のほか、サイズファクターでもクラスタリング可能。

f:id:kazumaxneo:20200905180449p:plain

Differential Expression Analysis

f:id:kazumaxneo:20200905202812p:plain

Gene Expression Boxplot

f:id:kazumaxneo:20200905202959p:plain

発現変動遺伝子のリストは Differential Expression Analysisから取り出せる。

Genotype_WT_vs_KO、p-value threshould 0.01

f:id:kazumaxneo:20200905203922p:plain

右下のDownload csvボタンを押すと全遺伝子の結果がダウンロードされる。

ダウンロードしたリストをexcelで開いたところ。padjはadjusted p-value（参考）。発現変動遺伝子を取り出したければp-valueとpadjについてフィルタリングすればよい。

f:id:kazumaxneo:20200905204609p:plain

その２

引用
NASQAR: a web-based platform for high-throughput sequencing data analysis and visualization

Ayman Yousif, Nizar Drou, Jillian Rowe, Mohammed Khalfan , Kristin C Gunsalus

BMC Bioinformatics. 2020 Jun 29;21(1):267

NASQAR: A web-based platform for High-throughput sequencing data analysis and visualization

Ayman Yousif, Nizar Drou, Jillian Rowe, Mohammed Khalfan, Kristin C. Gunsalus

bioRxiv 709980

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Webベースのデータ分析プラットフォーム NASQAR