モデルおよび非モデル生物におけるTEエンリッチメント解析のための統合ウェブサーバー TEENA

　トランスポーザブル・エレメント（TE）は、様々な真核生物のゲノムに豊富に存在する。TEは、通常、異なる転写因子（TF）が結合するシスエレメント（エンハンサーやプロモーターなど）を作り出すことで、重要な制御的役割を果たす可能性があることを示唆する証拠が増えつつある。TEに由来するシスエレメントは最近、かつてないほど注目されており、その理解への重要な一歩は、明確なゲノム区間（例えば、エンハンサーやTF結合部位）に濃縮されたTEを、さらなる研究の候補として同定することである。しかしながら、このような解析は、TEに馴染みのない研究者や、バイオインフォマティクスのスキルに乏しい研究者にとっては、依然として困難である。ここでは、様々な生物のTE濃縮解析を効率化するTEENA（Transposable Element ENrichment Analyzer）を紹介する。最適化されたパイプラインを実装し、ほぼ100種のゲノム/遺伝子/TEアノテーションをホストし、柔軟性を可能にする複数のパラメーターを提供する。ユーザーが提供する唯一のファイルとしてゲノムインターバルデータを使用すると、対応するアノテーションを自動的に取得し、ルーチン解析を数分で終わらせることができる。複数のケーススタディにより、過去の知見に合致した信頼性の高い結果が得られることが実証されている。TEENAはhttps://sun-lab.yzu.edu.cn/TEENAで公開されている。その使いやすい設計により、様々なモデル生物および非モデル生物におけるTEの制御機能の研究が促進されることが期待される。

help

https://sun-lab.yzu.edu.cn/TEENA/help/

Github（大規模解析やTEENAサーバー未対応生物の解析のためにローカルで動かす事が可能）

https://github.com/Yuzhuo-li/TEENA

簡単に見ていきます。

webサービス

https://sun-lab.yzu.edu.cn/TEENA/にアクセスする。

Run TEENA！をクリックして進める。

まず解析対象の種とゲノムアセンブリを指定する。ここではModel Animalsを選択した。

続いて、ヒトのhg38アセンブリを選択した。

（ウェブサーバーを堅牢に保つため、十分にアノテーションされたゲノムのみに対応ししている。）

続いて解析対象のゲノム領域を指定したbedファイルを指定する。最初の３列が対応していれば（chrom, chromStart, chromEnd）、どのようなテキストでも認識する。

ダウンロードできるexample.bedには、10000の領域がBEDフォーマット（chrom, chromStart, chromEndのみ）で記載されている。

準備したbedをアップロードする。その下のオプションの設定は、１）ユーザーの指定した領域とアノテーションのTE間のオーバーラップを定義する方法として、中点を使用するか（そうでない場合は全領域を使用）、２）ゲノムのギャップ（N）は除くかどうか、３）プロモーター領域を除外するか（TSSから±500bpと定義）がある。

中間点の使用については、狭いピーク（シスエレメント、TF結合部位、狭いヒストンマークなど）については「はい」を選択し、広い領域については「いいえ」を選択することが推奨される。ゲノムのギャップの除外については、ほとんどのケースで「Yes」を選択することが推奨される。プロモーター領域の除外については、多くのTE研究の焦点であるエンハンサーのようなプロモーター領域にデータが重ならない場合は、「Yes」を選択し、データがプロモーターとオーバーラップする可能性がある場合、"No "を選択することが推奨される（いずれもhelpより）。

submitをクリックすると、ジョブの進捗を表すバーが表示される（上の画像の緑のゲージ）。ヒトゲノム（～3.2Gb長）から約20000のゲノム領域を使った解析ジョブはエンリッチメント解析に約2分、TE関連領域のアノテーションに約1分かかる。ほとんどのジョブは2-5分で終了する（helpより）。exampleのbedだと３分程度でジョブは終了した。

出力例

adjusted_p_value<0.05かつ fold_enrichment>2のものが有意に濃縮されたTEと定義されて表に提示される。表には、エンリッチされたTEの名前、ファミリーとクラス、指定した領域とのオーバーラップ数、P値、多重検定補正後のP値、倍率、などが表示されている。右端の8-9列目には、DfamやRepbaseなどのデータベースへの外部リンクがあり、さらなる解釈がサポートされている。

２つ目のTE関連領域とそのゲノムアノテーションの表は、TE機能の解釈や詳細な解析のための候補領域のスクリーニングを容易にすることを目的としている。このTE関連領域とは、TEに重なる領域として定義されている。表には、TE関連領域のゲノム座標、関連するTE（ゲノム位置、TE名）、隣接する遺伝子（遺伝子名、遺伝子ID、TSSまでの距離、ゲノム分布）などのが提示される。このテーブルで提供される情報を利用して、GO termエンリッチメント解析や各タイプのTEと重なるゲノム領域のモチーフ解析など、より詳細な解析を行うことができる（このような領域のゲノム分布は、homerのannotatePeaks.pl機能を用いてさらにアノテーションできる）（helpより）。

TEエンリッチメント解析結果の解釈を容易にするために、3種類の図が出力される。いずれもSVG形式で、論文発表に直接使用可能な品質で出力されている。4つの主要クラス（DNA、LINE、SINE、LTR）が別々に視覚化されている。

散布図は、ユーザーが提供したゲノム領域における各タイプのTEのオーバーラップ頻度の観測値と予想値を示している。対角線の左上にあるものは濃縮され、右下にあるものは減少している。log10(P)値は色のグラデーションで示されている。この図は、TE濃縮の全体像を示している。ボルケーノプロットは、グローバルな濃縮プロファイルを示す別の方法として提供されている。x軸はlog2(foldEnrich)、y軸は-lo10(P)を表す。バープロット（*_barplot.svg）は、上位20種類の濃縮されたTEを示す。有意に濃縮されたTEが20種類に満たない場合でも、上位20位以内のTEは可視化される（helpより）。

ゲノムアノテーション結果に基づいて、主要なTEクラス（DNA、LINE、SINE、LTR）ごとのTE関連領域のゲノム分布を示す円グラフが表示される。それぞれの円グラフには、プロモーター、エクソン、イントロン、5'UTR、3'UTR、TSS、非コード領域に存在する領域の割合が要約されている。

helpより

TEエンリッチメント解析は比較的簡単な作業で、技術的には様々な方法で実施できる。例えば、多くの先行研究では、ランダムなゲノムのシャッフルに頼ったカストームスクリプトや、二項検定やフィッシャーの正確検定のような統計的検定を使用している。また、ゲノム区間比較の汎用的な目的で設計されたコマンドラインソフトウェア（BEDtools、GIGGLEなど）を使用した研究も多い。
特筆すべきは、我々や他の研究室もTE解析にBEDtoolsのfisher機能を使用していることである。しかし、BEDtools fisherはTE解析のスピードと柔軟性においていくつかの制限があり、ウェブサーバーには適していない。
TEENAウェブサーバーでは、Sweep Lineアルゴリズムを使用して、TEと与えられたゲノム領域とのオーバーラップ解析を高速化し、BEDtools fisherベースのパイプラインよりも少なくとも10倍高速に動作する（GIGGLEほど高速ではない）。また、BEDtools-fisherやGIGGLEではサポートされていない機能、例えば、特定のゲノム領域（プロモーターやゲノムギャップ）を解析から除外するためのパラメータを提供している。
TEENAの性能評価のために、BEDtools-fisherおよびGIGGLEと比較した。TEENAとBEDtools-fisherは、計算された倍数濃縮度、P値のいずれに関しても、ほぼ同じ結果が得られることが確認された。
図表はダウンロードボタンをクリックするとダウンロードできる。また、解析結果のWebページをパソコンに保存し、保存したhtmlファイルを開くことで、出力されたすべての図表を後からダウンロードすることも可能。すべての結果は1ヶ月間サーバーに保存される。

引用

TEENA: an integrated web server for transposable element enrichment analysis in various model and non-model organisms

Yuzhuo Li, Renzhe Lyu, Shuai Chen, Yejun Wang, Ming-an Sun Author Notes

Nucleic Acids Research, Published: 15 May 2024