配列モチーフ発見アルゴリズムは、DNA、RNA、タンパク質の配列中で生物学的機能を果たす新規な配列パターン、例えば、DNAやRNA結合タンパク質の結合部位モチーフを同定することができる。ここで紹介するSTREMEアルゴリズムは、精度と汎用性の両面で最先端のab initio モチーフ発見のアルゴリズムである。In vivoのDNA(ChIP-seq)とRNA(CLIP-seq)のデータを用いて、in vitroデータから得られたリファレンスモチーフでモチーフを検証した結果、STREMEは、広く使われているいくつかのアルゴリズム(DREME、HOMER、MEME、Peak-motifs、Weeder)よりも精度が高く、感度が高く、徹底しており、かつ迅速であることを示された。STREMEの機能には、何十万もの配列データセットからモチーフを検出する能力、短いモチーフと長いモチーフの両方を検出する能力(3~30ポジション)、配列データセットのペアでの差分モチーフ検出、事実上あらゆるアルファベット(DNA、RNA、タンパク質、ユーザー定義のアルファベット)の配列からモチーフを検出する能力などがある。多くのモチーフ発見アルゴリズムとは異なり、STREMEは、発見した各モチーフの統計的有意性を正確に推定し、レポートする。STREMEは、http://meme-suite.org のウェブサーバーから簡単に使用でき、広く利用されている配列解析ツールのMEMEスイートと完全に統合されている。
STREMEは、選択した停止基準を満たすまで、以下の5つのステップを繰り返してモチーフを検索する。停止基準は、モチーフの統計的有意性(p値)、または見つかったモチーフの総数のいずれかである。
サフィックスツリーの作成
STREMEは、プライマリシーケンスとコントロールシーケンスの両方を含む単一のサフィックスツリー(接尾辞木)を作成する。
シードワードの評価
STREMEは、ツリーを使用して、モチーフの最大幅までの長さのすべてのシードワードを効率的に評価し、選択した目的関数を使用して、プライマリシーケンスにおける各ワードの相対的なエンリッチ度のp値を計算する。
モチーフの精密化
STREME は,最適なシードワードのそれぞれをモチーフに変換し,各モチーフを反復的に精錬して,プライマリシーケンスとコントロールシーケンスを最もよく識別できるモチーフを選択する.絞り込みの各反復では、現在のモチーフとk次の背景をサフィックスツリーと一緒に使用して、各配列の中から最適な部位を効率的に見つける。その後、プライマリシーケンスとコントロールシーケンスは、それらのベストサイトの対数尤度スコアでソートされ、統計的検定のp値を最適化するスコア閾値(選択された目的関数に依存)が発見される。
モチーフの有意性の計算
STREMEは、モチーフと最適な識別スコアのしきい値(プライマリシーケンスとコントロールシーケンスに基づく)を使用して、モチーフの偏りのない統計的有意性を計算し、ホールドアウトセットの配列を分類し、統計的検定(フィッシャーの厳密検定、二項検定、または累積ベイツ分布)を適用して分類する。
モチーフの消去
STREMEは、プライマリシーケンスとコントロールシーケンスの両方から、最良のモチーフの部位を "N"(DNAとRNA)または "X"(Protein)文字に変換することにより、それぞれの部位を "消去 "する。
Tutorial
http://meme-suite.org/doc/streme-tutorial.html
MEMEスイート(http://meme-suite.org)にアクセスする。
STREMEにクリックする。
配列セットを入力する。ここではexample datasetを使う。
STREMEは、配列のコントロールセットと比較して、配列中で濃縮されているモチーフを探す。そのため、コントロール配列も指定する必要がある。コントロール配列は、プライマリ配列とほぼ同じ長さの分布を持っている必要がある。提供しない場合(デフォルト)、各配列をk-mer頻度(DNA, RNAは3-merで、タンパク質またはカスタムアルファベットは1-mer)を保存したままシャッフルしてコントロールセットを作成する。
出力
HTML output
メモ
- STREME は比較的短い (≤ 1000 文字) 配列が多い場合に最適。長い配列がある場合は小さな配列に分割した方が良い。
- ChIP-seqデータでは、ピークを中心とした100bpの領域を使用するか、実際のCLIP-seqピーク(センタリングやトリミングなし)を使用することを推奨。
- 配列数が50以下の場合はSTREMEではなくMEMEの使用を推奨
- プライマリ配列のセットが少なすぎる場合(50配列未満)、STREMEはモチーフのp値を報告しない。代わりに報告されるSCOREをモチーフの有意性の指標として使用しないこと。
追記
指定した配列モチーフを探すにはFIMOを使う。
FIMO出力例
右端にユーザーのアップロードした配列、左端に見つかったモチーフ、そして位置や向き、p-value、q-valueなどが表示されている。
引用
STREME: Accurate and versatile sequence motif discovery
Timothy L. Bailey
bioRxiv, Posted November 23, 2020
参考