macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

配列モチーフを探す STREME

 

 配列モチーフ発見アルゴリズムは、DNA、RNA、タンパク質の配列中で生物学的機能を果たす新規な配列パターン、例えば、DNAやRNA結合タンパク質の結合部位モチーフを同定することができる。ここで紹介するSTREMEアルゴリズムは、精度と汎用性の両面で最先端のab initio モチーフ発見のアルゴリズムである。In vivoのDNA(ChIP-seq)とRNA(CLIP-seq)のデータを用いて、in vitroデータから得られたリファレンスモチーフでモチーフを検証した結果、STREMEは、広く使われているいくつかのアルゴリズム(DREME、HOMER、MEME、Peak-motifs、Weeder)よりも精度が高く、感度が高く、徹底しており、かつ迅速であることを示された。STREMEの機能には、何十万もの配列データセットからモチーフを検出する能力、短いモチーフと長いモチーフの両方を検出する能力(3~30ポジション)、配列データセットのペアでの差分モチーフ検出、事実上あらゆるアルファベット(DNA、RNA、タンパク質、ユーザー定義のアルファベット)の配列からモチーフを検出する能力などがある。多くのモチーフ発見アルゴリズムとは異なり、STREMEは、発見した各モチーフの統計的有意性を正確に推定し、レポートする。STREMEは、http://meme-suite.org のウェブサーバーから簡単に使用でき、広く利用されている配列解析ツールのMEMEスイートと完全に統合されている。

 

STREMEは、選択した停止基準を満たすまで、以下の5つのステップを繰り返してモチーフを検索する。停止基準は、モチーフの統計的有意性(p値)、または見つかったモチーフの総数のいずれかである。

サフィックスツリーの作成
STREMEは、プライマリシーケンスとコントロールシーケンスの両方を含む単一のサフィックスツリー(接尾辞木)を作成する。

シードワードの評価
STREMEは、ツリーを使用して、モチーフの最大幅までの長さのすべてのシードワードを効率的に評価し、選択した目的関数を使用して、プライマリシーケンスにおける各ワードの相対的なエンリッチ度のp値を計算する。

モチーフの精密化
STREME は,最適なシードワードのそれぞれをモチーフに変換し,各モチーフを反復的に精錬して,プライマリシーケンスとコントロールシーケンスを最もよく識別できるモチーフを選択する.絞り込みの各反復では、現在のモチーフとk次の背景をサフィックスツリーと一緒に使用して、各配列の中から最適な部位を効率的に見つける。その後、プライマリシーケンスとコントロールシーケンスは、それらのベストサイトの対数尤度スコアでソートされ、統計的検定のp値を最適化するスコア閾値(選択された目的関数に依存)が発見される。

モチーフの有意性の計算
STREMEは、モチーフと最適な識別スコアのしきい値(プライマリシーケンスとコントロールシーケンスに基づく)を使用して、モチーフの偏りのない統計的有意性を計算し、ホールドアウトセットの配列を分類し、統計的検定(フィッシャーの厳密検定、二項検定、または累積ベイツ分布)を適用して分類する。

モチーフの消去
STREMEは、プライマリシーケンスとコントロールシーケンスの両方から、最良のモチーフの部位を "N"(DNAとRNA)または "X"(Protein)文字に変換することにより、それぞれの部位を "消去 "する。

 

Tutorial

http://meme-suite.org/doc/streme-tutorial.html

 

webサービス

MEMEスイート(http://meme-suite.org)にアクセスする。

f:id:kazumaxneo:20201217225709p:plain

 

STREMEにクリックする。

f:id:kazumaxneo:20201217225827p:plain

 

配列セットを入力する。ここではexample datasetを使う。

f:id:kazumaxneo:20201217231734p:plain

 

STREMEは、配列のコントロールセットと比較して、配列中で濃縮されているモチーフを探す。そのため、コントロール配列も指定する必要がある。コントロール配列は、プライマリ配列とほぼ同じ長さの分布を持っている必要がある。提供しない場合(デフォルト)、各配列をk-mer頻度(DNA, RNAは3-merで、タンパク質またはカスタムアルファベットは1-mer)を保存したままシャッフルしてコントロールセットを作成する。

 

出力

f:id:kazumaxneo:20201217232333p:plain

HTML output

f:id:kazumaxneo:20201217232341p:plain

 

メモ

  • STREME は比較的短い (≤ 1000 文字) 配列が多い場合に最適。長い配列がある場合は小さな配列に分割した方が良い。
  • ChIP-seqデータでは、ピークを中心とした100bpの領域を使用するか、実際のCLIP-seqピーク(センタリングやトリミングなし)を使用することを推奨。
  • 配列数が50以下の場合はSTREMEではなくMEMEの使用を推奨
  • プライマリ配列のセットが少なすぎる場合(50配列未満)、STREMEはモチーフのp値を報告しない。代わりに報告されるSCOREをモチーフの有意性の指標として使用しないこと。

引用

STREME: Accurate and versatile sequence motif discovery

Timothy L. Bailey

bioRxiv, Posted November 23, 2020

 

参考