本論文では、DNAやRNAの配列内部の連続した配列ブロックのクラスターを同定・検出するための新しいツールおよびアルゴリズムであるFMSClusterFinderについて説明する。遺伝子発現やゲノムグループの性能は、機能的要素がクラスターとして互いに協調して制御されている。機能モチーフやブロックは比較的短く、縮重(degenerate )していることが多く、互いに様々な距離に位置している。機能モチーフの多くはクラスターとして互いに関連しているため、このようなブロックのクラスターを見つけることは、機能グループとその機能・構造を特定するための有効なアプローチであり、新たな対応ツールの開発が求められている。
本発表では、配列が変化しても、互いに離れた場所にある連続したブロックのクラスターを、対象配列の中から同時に発見する。さらに、a) 類似度の違い、b) クラスタ構築に必要な最小ブロック数の違い、c) 配列の種類(縮退配列、標準配列)、d) 各ブロックの代替配列(1つまたは複数)の違いなど、ユーザー定義の一定または異なる特徴を持つブロックを検索することが可能である。FMSClusterFinderは、http://fmsclusterfinder.fmsbiog.com で自由に利用できる。
Help
http://fmsclusterfinder.fmsbiog.com/help.php
FAQ
http://fmsclusterfinder.fmsbiog.com/FAQ.php
極々簡単に使用する流れだけ説明します。
http://fmsclusterfinder.fmsbiog.com/にアクセスする。
対象配列は、DNA、RNA、アミノ酸のいずれでもよく、その中からQuery Blocksを探すことができる。ここではnucleotide cluster finderを選ぶ。
画面が切り替わる。FASTA形式の塩基配列を入力し、下のQuery sequenceボックスに探索したい配列を入力する。ここではATGを検索する。Find clusterをクリック。
ADD BLOCK」「DELETE BLOCK」ボタンをクリックするとQuery Block の数を増減できる(同時に複数の配列ブロックを探せる)。
出力。3つ見つかった。
パラメータ(論文より)
- 対象配列:ユーザーが入力した塩基配列(DNA、RNA、タンパク質)。FASTA 形式で入力される。
- クエリーブロック配列:クラスターを形成する1つ以上のモチーフで、連続する2つのブロック間の最小・最大距離が定義されている。クエリ ブロック配列は、標準的なパターンと縮退したパターンを入力することができ、また、複数のフォーマット のフォーマットがある。
- 次のブロックまでの距離:あるブロックの終了から次のブロックの開始までのヌクレオチド/アミノ酸の数。
- 類似度:検出されたモチーフを持つブロックの類似度の最小値。
- 存在するブロックの最小数:提案するクラスタを形成するために必要なブロック数の最小値。
論文ではリボスイッチ関連クラスターを探す例が示されています(図1)。
引用
FMSClusterFinder: A new tool for detection and identification of clusters of sequential motifs with varying characteristics inside genomic sequences
Mohammad Mahdi Hejazi, Faegheh Golabi, Mohsen Bahrami
bioRxiv, Posted January 25, 2022