macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ネットワークに基づく遺伝子セットエンリッチメント解析を行う NGSEA

 

 遺伝子発現表現型の遺伝子セット解析には、 over-representationアプローチとaggregate scoreアプローチという2つの主要なアプローチがある(Irizarry et al.、2009)。 over-representationアプローチでは、発現データセットから差分発現遺伝子(DEG)群を選択し、選択したDEGの中で各注釈付き遺伝子セットの過剰発現の有意性を超幾何検定などの統計検定により計算する。この方法は合理的であるが、いくつかの欠点がある。例えば、この方法では、有意性の低い遺伝子は発現表現型において重要でない遺伝子として扱われる。したがって、結果はDEGsを選択するために使用されるカットオフに大きく依存することになる。また、有意な遺伝子間の相対的な順序情報は考慮されていない。

Over-representationアプローチの解析限界は、メンバー遺伝子の全遺伝子特異的スコアに基づいて各注釈付き遺伝子セットにスコアを割り当てる、集約的スコアアプローチによって克服できる。Gene set enrichment analysis (GSEA) (Subramanian et al., 2005) は、現在利用可能な最も一般的な集約的スコアアプローチである。GSEAでは、まず発現プロファイルの遺伝子を発現差に基づく遺伝子特異的スコアで順位付けし、次に修正Kolmogorov-Smirnov (K-S) 検定に基づいて各注釈付き遺伝子集合のエンリッチメントスコアを計算する。しかし、GSEAはその人気の高さとは裏腹に、いくつかの欠点も持っている。例えば、GSEAは一方向に制御された遺伝子群、すなわち、アップレギュレートまたはダウンレギュレートのいずれかを識別するために設計されている。もし、ある遺伝子セットが、up-regulationとdown-regulationが等しく分布しているDEGsにマッチした遺伝子を持っている場合、その発現表現型との関連はGSEAでは検出されない可能性がある。この限界を克服するために、up-regulationとdown-regulationの両方の遺伝子スコアの絶対値を計算する絶対濃縮度(AE)と呼ばれる修正GSEAが開発された(Saxena et al.)。

 GSEAのもう一つの欠点は、DEGが必ずしも遺伝子セットで表される分子プロセスの責任者である機能遺伝子を表しているとは限らないことである。そのため、DEGは必ずしもその分子プロセスを司る機能遺伝子を表しているわけではなく、その分子プロセスにおける真の機能遺伝子に邪魔された制御異常遺伝子である可能性がある。GSEAは有意なDEGのスコアに基づいて各遺伝子集合にスコアを割り当てるため、有意な発現変化を示さない真の機能遺伝子からなる遺伝子集合は、この方法では捕捉されないことになる。この解析上の限界は、機能遺伝子ではなく、発現シグネチャーに基づく注釈付き遺伝子セットを用いることで部分的に克服できるかもしれない。例えば、MSigDBはGSEAで使用するために設計され、遺伝子発現データから得られた多くのシグネチャー遺伝子セットを含んでいる(Liberzon et al., 2011)。しかし、生物学的プロセスや疾患に関するアノテーション遺伝子のデータベースの大半は、疾患の原因遺伝子などの機能性遺伝子をベースとしている。

 ネットワークに基づく遺伝子発現差解析は、疾患原因遺伝子の優先順位付け(Nitsch et al., 2009)やがん細胞株の必須遺伝子(Jiang et al., 2015)に利用されている。これらの手法は、腫瘍形成などの疾患過程の機能遺伝子は、機能ネットワークにおいてその病態のDEGに囲まれる傾向があるという考えに基づいている。そこで本著者らは、局所的なサブネットワーク(すなわち、各遺伝子とその近傍を結ぶネットワーク)の発現差によって遺伝子を順序付けることで、関連する生物学的プロセスに関連する機能的遺伝子セットを捉える能力が向上すると仮定している。本研究では、個々の遺伝子だけでなく、機能ネットワークにおける隣接遺伝子の発現差を利用して、機能性遺伝子セットの濃縮スコアを測定するネットワークベースGSEA(NGSEA)を発表する。ネットワークベースの遺伝子セット解析手法は既にいくつか提案されているが、これらの手法は、予め選択された2つの遺伝子セット、データベースからのアノテーション遺伝子セット、実験からのクエリー遺伝子セット間の関連性を分子ネットワーク内での相対的近接性に基づいて同定するover-representation approachを改良した手法である(Alexeyenko et al.2012; Glaab et al.2012; McCormack et al.2013; Wang et al.2012).知る限り、NGSEAは集約的なスコアアプローチを適用した最初のネットワークベースの遺伝子セット解析手法である。

 NGSEAがマッチした遺伝子発現データセットに対するKEGGパスウェイ遺伝子セット(Kanehisa et al.、2017)の検索においてGSEAを上回ることを発見した。また、NGSEAをいくつかの疾患の薬剤優先順位付けに適用し、マッチした癌関連遺伝子発現データセットに対する既知の薬剤の検索能力において、NGSEAがConnectivity Map (CMap) (Lamb et al., 2006) より大幅に優れたパフォーマンスを示すことを見出した。NGSEA を用いて FDA が承認した薬剤が大腸がんに対して抗がん作用を持つかどうかを解析し、現在抗炎症薬として使用されている化学物質ブデソニドの抗がん作用を実験的に検証した。NGSEAは、Webベースのソフトウェアとして自由に利用することができる(www.inetbio.org/ngsea)。

 

Tutorial

http://www.inetbio.org/ngsea/tutorial.php

 

流れだけ簡単に確認します。

webサービス

NGSEA - Network-augmented Gene Set Enrichment Analysisにアクセスする。

f:id:kazumaxneo:20220110231606p:plain

ここではexampleデータを使う。

f:id:kazumaxneo:20220110232342p:plain

発現行列はテキスト形式(*.rnk);で遺伝子識別子<tab>値、を記載する。遺伝子識別子はENTREZ遺伝子IDまたはNCBI公式遺伝子記号のいずれかを指定する。clsファイルは表現型ラベルファイルと呼ばれるファイル。以前説明した(リンク)。exampleデータがダウンロードできるようになっている。

 

出力例

f:id:kazumaxneo:20220110232623p:plain

 

Prelanked(すでにP値など計算済みのもの)

f:id:kazumaxneo:20220110232704p:plain

 

出力例

f:id:kazumaxneo:20220110232808p:plain

結果は.tsvファイルとしてダウンロードできる。

 

引用

NGSEA: Network-Based Gene Set Enrichment Analysis for Interpreting Gene Expression Phenotypes with Functional Gene Sets
Heonjong Han, Sangyoung Lee, Insuk Lee

Mol Cells. 2019 Aug; 42(8): 579–588