エンリッチされたDNAモチーフ配列を検出する DiNAMO

　一連のDNA配列が与えられた場合、モチーフ発見は、偶然によって予想されるよりも配列中で有意に頻繁なover-represented（以後、過剰表現）されたモチーフを見つけることにある。これは、バイオインフォマティクスと同程度の歴史を持ち、多数のアプリケーションを持つ古典的なタスクである。このアプローチの背後にある根本的な前提は、過剰表現されたモチーフが生物学的機能を示すか、または何らかの現象を説明することである。モチーフ発見は、調節領域を分析し、共調節遺伝子のプロモーター配列中の転写因子結合部位（TFBS）を検出するために、またはChIP-seq実験のピーク領域でエンリッチされているモチーフを探索するために広く使用されている[論文より　ref.2,3]。最近のもう一つの応用は、次世代シーケンシング（NGS）機器でシーケンシングエラーを引き起こす可能性のある保存されたモチーフを検索することである[ref.4,5]。

　DNAモチーフは、いくつかの生物学的意義を有する短いDNA配列パターンとして定義される。正確な配列を有するモチーフを表すことはあまりにもrigidで、いくつかのバリエーションを可能にするより柔軟なモチーフの記述には、いくつかの類似したワードを組み合わせることができるかもしれない[ref.6]。これらの固有の変化を特徴づける試みにおいて、いくつかの表現が導入されている。これらの表現は、確率モデルとワードベースの表現の2つの主要なカテゴリに分けることができる。確率モデルは、位置重み行列（PWM）(wiki) または位置特定スコア行列、隠れマルコフモデル（HMM）などの頻度行列を含む。この文脈では、モチーフ発見は、広く使用されるMEMEアルゴリズム[ref.8]、[ref.9]のようなGibbsサンプリング[ref.7] (wiki) や期待値最大化（EM）法 (wiki) などの局所探索アルゴリズムに依存する。主な欠点は、これらのアルゴリズムが常にグローバル最適解を見つけるとは限らず、それがその感度に影響することである[ref.10]。

　代替案は、ワードベースの表現によって提供され、組み合わせの方法で単語の集合を記述することを可能にする。最も単純な表現の中には、Weeder [ref.12]やHOMER [ref.13]、RSAT [ref.11]のような正確な文字列や、いくつかのミスマッチを許容するコンセンサス配列があり、Chip-Seq解析にも広く使われている。このカテゴリでは、ワイルドカード記号の包括的なセット（論文　図1a）a）を使用し、確率モデル[ref.14]と同様の識別力を持つIUPACモチーフも特定する。本質的に、ワードベースの表現は、包括的な最適性を保証する網羅的な列挙アルゴリズムによく適しているが、ボトルネックは検索空間のサイズである。 IUPACモチーフの場合、探索空間がモチーフの長さとともに指数関数的に増加するので、ナイーブな方法を用いて長いモチーフを探索することはできない。このような観点から、YMF [ref.15]、MoSDi [ref.16]、Trawler [ref.17]などのいくつかの研究では、IUPACモチーフに対するいくつかの制限があり、生物学的応用検討中のゲノムの大きさに依存する。

　この論文では、DNA配列におけるIUPACモチーフの発見のための正確な識別方法を提示する。この方法を用いると、モチーフに何らの制限もなく、制御データセットと比較して、大量のシグナルデータセット中の弱く表現されたIUPACモチーフを効率的に探索することが可能である。著者らのアプローチは正確である。なぜなら、縮重されたモチーフを構築するために重要であろうとなかろうと、既存の正確なモチーフをすべて考慮に入れているからである。これは、過剰表現された縮重モチーフを検索する目的関数として相互情報（MI）を使用する。これは、適切なデータ構造を使用することにより、妥当な時間内に正確な方法で進められる。このアルゴリズムは、DiNAMOと呼ばれるソフトウェアで実装され、次世代シーケンシング技術、すなわちChip-Seq解析とSequence Specific Error Detection（SSE）にリンクされた2つの異なるアプリケーションの合成データセットと実際のデータセットで評価された。

インストール

mac os10.12でテストした。

ビルド依存

Boost library

本体　GIthub

リリースからバイナリをダウンロードして実行権をつける。linux、osx、windows版がある。

Releases · bonsai-team/DiNAMO · GitHub

> ./dinamo -h

$ ./dinamo -h

Usage :

dinamo (-pf|--positive-file) path/to/positive (-nf|--negative-file) path/to/negative (-l|--motif-length) k

Available options :

(-d|--degeneration-level) k : Limits the degeneration to at most k positions

(-o|--output-file) path/to/output : Output the meme file to the desired path (has no effect when -p option is used)

(-p|--position) k : Only process motif that end at position k in the sequence.

(Important note : position 0 corresponds to the last motif of each sequence)

--norc : When -p is not used, prevents dinamo to link motif to their reverse complement

(Please be warned : not linking the motif to their reverse complement usually doubles memory usage)

(-t|--threshold) r : Sets the pvalue threshold to r (0 <= r <= 1)

(-h|--help) : Displays this help

--no-log : Prevents the log ouput from being displayed

——

実行方法

ポジティブデータセット（と期待されるデータセット）とネガティブデータセット（対照区）の２データのFASTAを指定する。

dinamo -pf signal.fa -nf control.fa -l 6

-pf path/to/positive
-nf path/to/negative
-l motif-length

引用
DiNAMO: highly sensitive DNA motif discovery in high-throughput sequencing data
Chadi Saad, Laurent Noé, Hugues Richard, Julie Leclerc, Marie-Pierre Buisine, Hélène Touzet, Martin Figeac

BMC Bioinformatics. 2018; 19: 223