macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(ヒト)パスウェイエンリッチメント解析のためのウェブアプリケーション DecoPath

 

 過去20年間で、パスウェイデータベースとパスウェイエンリッチメント法は着実に発展してきた。しかし、パスウェイデータの出現に伴い、データベース間の相互運用性が改善されていないため、複数のデータベースから得られたパスウェイ知識をパスウェイ・エンリッチメント解析に利用することができなかった。統合データベースは、複数のリソースからのパスウェイ知識を照合することでこの問題に対処しようとしているが、これらのアプローチではデータベース間の冗長な情報を考慮していない。一方、パスウェイ・エンリッチメント解析を採用している研究の大半は、単一のデータベースに依存しているが、別のリソースを使用することで異なる結果が得られる可能性があり、異なるパスウェイ・エンリッチメント手法を採用している場合も同様である。このように、パスウェイ解析の実験デザインにおいて、データベースやエンリッチメント手法の違いや一致点を調査するアプローチは、解析結果を有意義なものにするための重要な第一歩となる。ここでは、パスウェイ解析の結果の解釈を支援するウェブアプリケーション、DecoPathを紹介する。DecoPathは、パスウェイ・エンリッチメント解析を実行したり、解析結果を直接アップロードしたりするためのエコシステムを提供し、パスウェイや遺伝子レベルでのコンセンサスや不一致を強調するカスタム・ビジュアライゼーションによって、これらの結果の解釈を容易にする。DecoPathは、https://decopath.scai.fraunhofer.deソースコードとドキュメントはGitHubhttps://github.com/DecoPath/DecoPath)で公開されている。

 

User Guide

https://decopath.scai.fraunhofer.de/user_guide

FAQ

https://decopath.scai.fraunhofer.de/faqs

 

HPより

ハイスループット(HT)技術によって生成されたデータの解釈を導くより一般的な方法の1つは、差次的に発現する遺伝子のセットが所定の生物学的プロセスまたは表現型と関連するかどうかを決定することです。これは一般に、遺伝子セットエンリッチメント解析(GSEA)や過剰発現解析(ORA)などのパスウェイ解析によって行われる。パスウェイ解析は非常に一般的なアプローチですが、パスウェイ境界はパスウェイデータベースによって緩やかに定義されることがあり、特定のデータベースを選択する際には重要な注意事項があります。そこで、研究者があるデータベースを用いてパスウェイ解析を行った場合に、何が期待できるかを明らかにするために、異なるリソースのパスウェイを用いた場合の結果を比較し、どこに違いがあるかを特定するためのウェブアプリケーション、DecoPathを開発しました。

DecoPathは直感的で拡張性の高いウェブアプリケーションで、ユーザーはどこに違いがあるのか、どのパスウェイが使われているのかを簡単に特定することができます。 異なるリソースのパスウェイを使用したときに生成される結果を直接比較することで、どこに違いがあるのかを特定することができます。

 

Github

(docker imageも用意されています)

 

webサービス

https://decopath.scai.fraunhofer.de  にアクセスする。

f:id:kazumaxneo:20210527170625p:plain

右上からログインする。アカウントは簡単に作れる。

 

DecoPathでは、最も広く用いられている2つのパスウェイエンリッチメント手法;過剰表現解析(ORA)と遺伝子セットエンリッチメント解析(GSEA)から構成されている。ここではORAを選択した。

f:id:kazumaxneo:20220203235712p:plain

ORAでは、片側フィッシャーの正確検定から得られるP値が指定された閾値(通常は0.05)より低い場合、パスウェイは濃縮されている(過剰発現している)とみなされる。この検定はデータベース内の各パスウェイに対して行われるため、DecoPathのORAの実装では、Benjamini-Yekutieli法による多重仮説検定補正を依存性の下で適用することにより、P値を補正する(論文より)。

 

使用するデータベースにチェックを付け、必要であればパラメータを変更する。

f:id:kazumaxneo:20220204000402p:plain

 

DecoPathでは4つのパスウェイデータベースを利用できる(合計644のパスウェイを含む)。

  • KEGG
  • PathBank
  • Reactome
  • WikiPathways

 

ここでは4つ全てチェックを付けた。次に、Upload gene list and run ORAにチェックを付け、ユーザーが関心のある遺伝子リストをアップロードする。

GSEAのテストinput.csv

 

ここではレポジトリのテストデータ;test_files/ora/gene_list.tsvを使った。

f:id:kazumaxneo:20220204001035p:plain

 

最後にRunをクリック。

f:id:kazumaxneo:20220204001155p:plain

 

ジョブが終わるまでにはしばらく時間がかかる。下の写真のジョブ1は破線のになっていて、このジョブが進行中であることが分かる。

f:id:kazumaxneo:20220203232104p:plain

(結果は上のメニューのExperimentsから読み込める)

 

テストした時は数分で結果が出た。

f:id:kazumaxneo:20220204001543p:plain

 

Load Results (ORA Results)

パスウェイの識別子とパスウェイ名、P値とQ値(調整後P値)が示される。

f:id:kazumaxneo:20220204002454p:plain

P値(Q値)でソートすると、このデータでは、4つのデータベースが交互に出てくるのが確認できた。この表はダウンロードできる。

 

パスウェイの識別子をクリックすると、元のデータベースかDecopathデータベースへリンクされる。

f:id:kazumaxneo:20220204002732p:plain

 

ORA Consensus Results

Consensusページでは、パスウェイレベルでのデータベース間のエンリッチメント解析のコンセンサス度を可視化できる。

f:id:kazumaxneo:20220204002849p:plain

f:id:kazumaxneo:20220204002903p:plain

文字の色は上の円グラフと対応している。パスウェイは、指定された閾値以下のq値の場合、over-representationとみなされる。

 

Concordantは全体の24.5%しかなかった。

f:id:kazumaxneo:20220204003140p:plain

 

 

Pathway Hierarchy

データベース間で等しいパスウェイをインタラクティブに可視化したもの。

f:id:kazumaxneo:20220204010940p:plain

 

この灰色のバブルはDNA repair and replication。灰色は閾値以上(有意ではない)、赤は閾値以下(有意)を意味する。

f:id:kazumaxneo:20220204011026p:plain

内部右のオーバーラップした赤いバブル3つはいずれもDNA Replication。

f:id:kazumaxneo:20220204011127p:plain

 

GSEAも基本的な流れは同じになる。GSEAを4つのデータベースを使って実行し、類似性を比較できる。

引用

DecoPath: a web application for decoding pathway enrichment analysis 
Sarah Mubeen, Vinay S Bharadhwaj, Yojana Gadiya, Martin Hofmann-Apitius, Alpha T Kodamullil, Daniel Domingo-Fernández
NAR Genomics and Bioinformatics, Volume 3, Issue 3, September 2021

 

関連