macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

複数条件下での時間経過トランスクリプトームデータを解析するためのウェブサービス TimesVector-Web

 

 遺伝子発現データの時間経過解析は、ある生物学的メカニズムの時間経過に伴う遺伝子発現の変調パターンを明らかにするのに有利である。例えば、正常者と癌患者のコホートなど、2つの条件間で有意に差のある発現遺伝子(DEG)を検索することは一般的に行われている。このような解析は、現在の遺伝子発現状態の1つのスナップショット内のトランスクリプトームの違いをペアワイズで観察するように調整されている。そのため、重要な遺伝子制御機能の動態や進行中の変遷が見落とされることがある。
時間経過解析データは、遺伝子発現の有意な変調や他のオミックスデータを観察し、実験の条件に関して関心のある生物学的現象を説明するために作成される。時間経過解析は複雑な手順となり、研究者の解析の視点によって異なる結果をもたらす可能性がある。例えば、従来のDEG解析を採用する場合、時間点の組合せを比較することが選択される。このようなアプローチでは、各DEGペアの結果だけでは解釈できないため、結果の事後分析が必要となる。生物学的に意味のある結果を導き出すには、それらを後から統合する必要がある。実験設定としては、単一の条件下で時間経過データを作成した場合、同定された遺伝子発現パターンは、関連する条件に対する反応を説明できることが期待される。一方、複数の条件下で時間経過データを作成した場合、条件間で有意に異なる(または類似する)遺伝子発現パターンを見つけることが解析の主な関心事となる。
 時間経過データを総称すると、時間経過とともに有意に異なる発現パターンをもたらす遺伝子を探索することができる。ここで、遺伝子の発現パターンを利用することで、より詳細に生物学的なメカニズムを理解することができる。例えば、あるストレスに対して、ある経路の遺伝子がどのように応答するかを経時的に観察することができる。さらに重要なことは、そのような遺伝子がストレスに応答し始めた時期を特定することができることである。しかし、時間経過データは高価であり、サンプリングする時点を選択することは、専門家の知識と推定または既知の条件応答性遺伝子に関する注意深い事前実験が必要な、自明ではない仕事である。このような慎重な設計を行わないと、選択した時間経過の中で重要な遺伝子発現調節が捉えられない可能性がある。これまで、発現量の異なる遺伝子を同定するための多くの時間経過解析法が開発されてきた。しかし、結果の解釈やツールの使い方が難しいため、多くの研究がDEG法に基づいて解析を行っている。生物学者にとって、オフラインのソフトウェアは、時に特定のシステムと互換性がなかったり、あるいは古くなってしまったりして、使いにくいものであるかもしれない。それでも、ウェブベースの時間経過遺伝子発現解析プラットフォームを提供するツールはわずかしかない。GEstureは、時系列遺伝子発現データからユーザが指定した遺伝子発現パターンを検索するためのウェブベースのツールである。したがって、従来の方法でクラスタリングを行うのではなく、ユーザが指定した検索パターンに依存した結果を得ることができる。そのため、指定したパターンと異なるパターンを見逃す可能性がある。
 このような難解な時間経過解析の負担を軽減するために、複数条件の時間経過遺伝子発現データを解析するための簡便なウェブサービスを開発した。このウェブサービスは、本著者らが以前開発したTimesVectorのアルゴリズムを実装し、解析手順の簡略化と様々な生物学的解釈のためのダウンストリーム解析を提供するためにいくつかの拡張を行ったものである。TimesVector-webは、https://cobi.knu.ac.kr/webserv/TimesVector-web で自由に利用できる。TimesVectorは、複数の条件下で時間的に差のある発現パターンを示す遺伝子群を検索することを目的とした時間経過型遺伝子発現解析ツールである。複数の条件と複数の時点が存在する可能性があるため、データは3次元構造(すなわち、遺伝子、時間、条件)を形成する。2 次元での部分空間クラスタリング(またはバイクラスタリング)は NP-hard であるため、3 次元クラスタリングは困難な課題である。そこで、サンプルを時間軸上で連結し、3次元データを2次元データに変換する。変換された2次元データに対して、球形クラスタリングを行い、同一クラスタ内で類似性が高く、他のクラスタ間で類似性が低い遺伝子クラスタを特定する。その後、条件ごとにサンプルを分割し、相互情報量を用いてパターンの違いを検定する。詳細についてはref.4の研究を参照されたい。

 

tutorial

https://cobi.knu.ac.kr/webserv/TimesVector-web/tutorial.php

 

f:id:kazumaxneo:20220110220831p:plain

TimesVector-web workflow. HPより

 

 

webサービス

https://cobi.knu.ac.kr/webserv/TimesVector-web/

f:id:kazumaxneo:20220110215829p:plain

 

 

解析する遺伝子発現ファイルはタブ区切りの発現行列テキスト(topからダウンロードできるデモデータ)。TimesVector-Webは時系列データおよび複数条件のRNAシーケンスデータのみに対応しているので注意する。

f:id:kazumaxneo:20220110221200p:plain

1行目はヘッダーでヘッダーの1列目'GeneID'は必須。1行目2列目以降は以下の構文に従う;'Condition_'TimePoint'(e.g, DV10_Day2)。条件と時点は"_"で区切られる。入力ファイルの実験のレプリケーツが存在する場合は、'Condition'_'TimePoint'_'Replicates'(例: DV10_Day2_rep1)とする。2行目以降には遺伝子名、発現値を記載する。

 

例えば、解析するファイルの条件が3つある場合、3つの入力ファイルが必要(全て同数の遺伝子で構成されていることが推奨されている)。

デモデータ1

f:id:kazumaxneo:20220110221800p:plain

GEOのオリジナルデータ(original/GSE11651_micro_data.txt)を条件ごとに分けて5つに分割している。

 

このデータ5つをアップロードする。シフトキーで挟んで5つ同時にアップロードした。

f:id:kazumaxneo:20220110222831p:plain

タンパク質をコードする遺伝子のみを使用するならUse only protein ~でYesを選択。データ型がマイクロアレイ型かRNA-seq型、正規化(log2 and quantile normalization。quantile normalizationはマイクロアレイでよく使われる)するかどうかを選択する。

 

ラン前にK-testボタンをクリックすると、入力データに対して適切なクラスタ数(K)が推奨される。これは入力データに対して適切なクラスタ数を推奨するためのもの。
”データ中の遺伝子発現パターンを解析するためには、適切なクラスタ数Kを選択することが重要である。ここでいう適切なクラスタ数とは、クラスタ数が最も少なく、同一クラスタ内の遺伝子の距離が小さく、異なるクラスタ間の遺伝子の距離が大きい場合である。我々のウェブサービスでは、'K-test' ボタンと 'maxK' パラメータにより、適切なクラスタ数を推奨している。このパラメータは、K検定の結果が入力データのサイズや特性によって異なる可能性があるため、ユーザが選択したいKの範囲を設定するためのものである” (マニュアルより)。

f:id:kazumaxneo:20220110223656p:plain

K-testはデータのサイズとmaxKに依存して数分かかることがある。

f:id:kazumaxneo:20220110232034p:plain

推奨値は30だった。

 

最後に生物を選択する。5種類の生物に対応している。

f:id:kazumaxneo:20220110223414p:plain

(g:Profilerのパラメータ)

 

RUNボタンを押して実行。データサイズによっては、解析が終了するまでに30分ほどかかる。

 

ショートカットキーを保存しておけば、ラン後は結果にすぐにアクセスすることができる。

f:id:kazumaxneo:20220110224106p:plain

 

出力例(demo1)

ショートカットキーは”CASE_STUDY_1”。

クラスタ数は6つとなった。

f:id:kazumaxneo:20220110225436p:plain

クラスタの図をクリックすると詳細が表示される。

Cluster pattern

f:id:kazumaxneo:20220110225511p:plain

Gene list

f:id:kazumaxneo:20220110225520p:plain

TF

f:id:kazumaxneo:20220110225532p:plain

miRNA

f:id:kazumaxneo:20220110225548p:plain

g:Profiler

f:id:kazumaxneo:20220110225617p:plain

 

引用

TimesVector-Web: A Web Service for Analysing Time Course Transcriptome Data with Multiple Conditions
Jaeyeon Jang, Inseung Hwang, Inuk Jung

Genes 2022, 13(1), 73; https://doi.org/10.3390/genes13010073

 

関連