macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(ヒトとマウス)マルチオミクスデータを探索するウェブサーバ  ExpressVis

 

 ライフオミクスの時代、膨大な量のマルチオミクスデータが生成され、生物医学研究に広く利用されるようになった。プログラミングスキルの低い生物学者がマルチオミクスデータから生物学的知見を得ることは困難である。そのため、複雑なオミクスデータを扱いやすくするために、可視化機能を備えた生物学者向けのプラットフォームが必要とされている。ここでは、ExpressVisという使いやすいインタラクティブなウェブサーバを提案する。ExpressVisでは、データセットの準備、差分発現解析、クラスタリング解析、生存率解析、発現データとタンパク質相互作用ネットワークやパスウェイマップの統合を行うことができる。これらの解析は6つのモジュールで構成されている。各モジュールを単独で使用することも、複数のモジュールを相互作用的に使用することもできる。ExpressVisは、解析結果をインタラクティブな図や表で表示し、各図や表、各モジュールの図や表間、異なるモジュール間で包括的なインタラクティブ操作を提供する。https://omicsmining.ncpsb.org.cn/ExpressVis から自由にアクセスでき、ログインも必要ない。臨床コホートのマルチオミクス研究におけるExpressVisの性能を検証するため、公表されている肝細胞がんデータセットを再解析し、その主な知見を再現したところ、ExpressVisがマルチオミクスデータの解析に十分便利であることが示された。ExpressVisは、その完全な解析プロセスとユニークなインタラクティブ操作に基づき、マルチオミクスデータを探索するための使いやすいソリューションを提供する。

 

webサービス

https://omicsmining.ncpsb.org.cn/ExpressVis/homeにアクセスする。

ExpressVisは、研究者が豊富なインタラクティブな可視化機能を用いて、マルチオミクスデータ(RNA-seq、マイクロアレイ、MSベースのプロテオミクスデータなど)からより多くの洞察を得るための総合プラットフォームとして設計されている(チュートリアルより)。

 

Data importタブ

定量データのインポート、グループの定義を行う。任意で表現型データのインポート、サンプル名の変更、バッチ効果補正も行うことができる。

 

入力データフォーマット(マニュアルより)

 

Data importタブは、さらにRNA-seq、Microarray、Proteomics、Otherに分かれている。

RNA seqを指定した。

 

RNA seqのインポートで必要なデータはカウントデータ、そしてTPM、RPKM、もしくはFPKMのいずれか。

 

ここではexampleデータを読み込む。Mus musculusのデータになっている。

(readmeでは、データ読み込み時のメニュー選択について説明されている)

 

カウントデータや正規化したカウントデータはこのような形式に従う必要がある。

注;TPM/RPKM/FPKMのデータしかない場合は、RNA-seqではなく「Other Normalized」モジュールを使ってインポートし、「Is your data log transformed」ドロップダウンメニューで「No. Not log transformed」を選択する。

 

phnotypeデータは以下のような形式。

 

カウント、正規化カウント、phnotypeデータをアップロードしたら、次にグループを定義する。

表現型ファイルに基づくグループ属性/複数属性によるグループ割り当て、またはインターフェースによる手動選択が可能。

 

ここではgroup属性を使ってKOとWTを定義する。

 

最後にバッチ効果を除去するためのステップが用意されている。

実験室の条件、試薬の選択、使用機器などに起因するバッチ効果を除去するために使用できる。ほとんどのデータセットでは、このステップはスキップできる(マニュアルより)。スキップの場合はskipをクリックする。

 

プロジェクト名を指定してuploadをクリックする。

 

Microarrayやproteomeも同様にしてアップロードできる。手順は、それぞれのexampleファイルの中のreadmeで詳しく書かれている。

 

 

アップロード後のタブ(モジュール)についても簡単に見ていく。

DiffExpモジュール

差分発現解析は、2 つの条件間で差分的に発現している遺伝子/タンパク質を特定する。発現差分解析のパラメータは、まず、Import Dataでデータセットを読み込み、次に実験群・対照群を指定し、最後に統計手法と多重仮説検定法を選択する。本プラットフォームは、Student-t test、Welch-t test、Wilcoxon rank-sums testの3つの従来の差分解析法をサポートしている(マニュアルより)。結果は右のテーブルに表示される(UpタブとDownタブ、Allタブに分かれている)。また、ボルケーノプロットもプロットされる。右下からエンリッチメント解析も実行できる。

 

ClusterExp

クラスター解析は、オミックスデータの解析において不可欠なステップである。なぜなら、同じクラスターに属する遺伝子/タンパク質は、同様の生物学的機能を持つ可能性が高いからである。ClusterExpは、遺伝子の概要発現パターンを発見し、関心のあるサブセット遺伝子を見つけるために設計されている。使用するには、目的の遺伝子/タンパク質リストを選択し、クラスタリングパラメータを選択する。K-means clustering (KMC) と hierarchical clustering (HC) をサポートし、与えられた遺伝子リストを解析する(マニュアルより)。

デンドログラムのルートノードにある遺伝子をクリックするか(階層型クラスタリングの場合)、ヒートマップをクリックして共発現遺伝子を選択し(k-meansクラスタリングの場合)、選択した遺伝子に対して機能的エンリッチメント解析を行うことができる(インターフェースや操作は、DiffExpと同様)。選択されたクラスタリングに含まれる遺伝子やタンパク質の詳細は、インタラクティブなテーブルで表示される。また、各項目の前にあるロゴをクリックすると、選択した遺伝子/タンパク質のグループ間のボックスプロットを表示できる。

 

SurvivalExp

大規模コホート研究において、オミックスに基づく研究がますます盛んになってきている。生存に関連する遺伝子/タンパク質は、バイオマーカーや創薬ターゲットとして研究される可能性が高く、疾患に対する洞察を得て治療方針を決定するのに役立つ。SurvivalExpモジュールは、あるイベントが発生するまでの時間を調査し、関連する遺伝子/タンパク質の危険因子や保護因子を特定することを目的として提案された(マニュアルより)。

使用するには、フォローアップファイルとマッピングファイルをアップロードする。前者は患者ID、追跡期間、試験終了時の患者の状態、後者はサンプルIDと患者IDの対応表が含まれている。それからフォローアップ情報、サンプル、解析用遺伝子・タンパク質リストを定義する。オミックスに基づくコホート研究は、多くの場合マルチサンプル型であり、様々なフォローアップ情報を含んでいる。再発リスクを判断するための無病生存率や死亡リスクを判断するための全生存率など、研究の目的に応じて適切なフォローアップ情報を選択する必要がある。また、解析に使用できるのは、同じ組織のソース(インターフェイスのGroupパラメータ)のデータのみである。さらに、動作速度の制限やフォレストプロットで表示できる項目が限られているため、このステップの解析では、関心のある遺伝子/タンパク質を少数選択することを推奨する(マニュアルより)。

 

IntegrationExp

生物学的プロセスの分子機能を明らかにするために、マルチオミクスデータの統合解析がますます盛んになっている。IntegrationExp モジュールをマルチオミクスデータの統合解析を容易にする。IntegrationExp モジュールでは2つの解析をサポートしている。1)遺伝子単位の相関解析。同一サンプルをトランスクリプトミクスやプロテオミクスのような複数の種類のオミックス技術で同時に測定したデータセットの解析を意味する。2つのデータセット間の同一遺伝子の相関を計算し、ランク指標として -log10(p-value)*sign(corr) を使用して、遺伝子セットがランクリストの上位または下位で過剰発現している度合いをGene Set Enrichment Analysis (GSEA) で評価する。2)分子レベルでの探索に重点を置いた機能。この機能では、ユーザーが興味のある遺伝子名を指定すると、その遺伝子と各データセットの他の特徴との相関係数をそれぞれ算出する。最後に、インタラクティブ・テーブルは、一貫した高い相関を持つ特徴(異なるコホートからの同じオミックスタイプの2つのデータセット)、または1つのデータセットでのみ高い相関を持つ特徴(均質な2つのデータセット)を見つけるために使用できる(例えば、トランスクリプトームでは選択された遺伝子と高い正の相関があるが、プロテオームでは差がない特徴など)。(マニュアルより)

 

他にも以前紹介したKeggExp、プロテオミクスデータからPPIネットワークを自動的に構築し、各条件で発現量の異なるタンパク質をネットワークマップ上で強調表示するPPIExp、そしてGSEAやORAの結果からエンリッチされた語彙間の類似性ネットワークを構築し、語彙間の関係を可視化するEnrichMinerがあります。機能が豊富でほとんど説明できませんでしたが、興味がある方はアクセスしてください。ページ右端にはチュートリアルが用意されています。さらに、どのモジュールもexampleデータを読み込んで使い方を学ぶ事が出来るようになっています。

引用

ExpressVis: a biologist-oriented interactive web server for exploring multi-omics data 
Xian Liu,  Kaikun Xu,  Xin Tao,  Ronghua Yin,  Guangming Ren,  Miao Yu,  Changyan Li, Hui Chen,  Ke Zhao,  Shensi Xiang,  Huiying Gao,  Xiaochen Bo,  Cheng Chang, Xiaoming Yang
Nucleic Acids Research, Volume 50, Issue W1, 5 July 2022, Pages W312–W321

 

関連