mrepsはダイレクトリピートを探すツール。短い単位の繰り返し配列がタンデムに続く領域を検出することができる。
ミニチュートリアル
http://mreps.univ-mlv.fr/tutorial.html
webサーバー版
http://bioinfo.lifl.fr/mreps/mreps.php
インストール
GitHub - gregorykucherov/mreps: mreps: software for tandem repeat identification in DNA
git clone https://github.com/gregorykucherov/mreps.git
cd mreps
make
mreps -h
ラン
デフォルト条件のラン。
mpreps -fasta input.fa > output
出力
user$ head -20 out
*****************************************************************************
* mreps 2.6 *
* *
* Finding tandem repeats in DNA sequences *
* *
*****************************************************************************
Processing sequence 'chr'
* Processing window [1 : 2695903] *
from -> to : size <per.> [exp.] err-rate sequence
---------------------------------------------------------------------------------------------
2111 -> 2122 : 12 <3> [4.00] 0.000 GAC GAC GAC GAC
18777 -> 18795 : 19 <9> [2.11] 0.000 GACAACCGC GACAACCGC G
20562 -> 20579 : 18 <9> [2.00] 0.000 TGGCAGCAA TGGCAGCAA
21928 -> 21944 : 17 <6> [2.83] 0.000 CGATCG CGATCG CGATC
30984 -> 30998 : 15 <6> [2.50] 0.000 GCGATC GCGATC GCG
バクテリアゲノムなら数秒以内に解析できる。GACx4のリピートなどが検出されている。末端のリピートは不完全でも検出されるため、expの列は必ずしも整数倍にはならない。
不完全なリピートを探すこともできる。
1塩基の間違いを許容してダイレクトリピートを探す。
mpreps -res 1 -fasta input.fa > output
出力
usr$ head -20 out
*****************************************************************************
* mreps 2.6 *
* *
* Finding tandem repeats in DNA sequences *
* *
*****************************************************************************
Processing sequence 'chr'
* Processing window [1 : 2695903] *
from -> to : size <per.> [exp.] err-rate sequence
---------------------------------------------------------------------------------------------
2111 -> 2122 : 12 <3> [4.00] 0.000 GAC GAC GAC GAC
3048 -> 3065 : 18 <6> [3.00] 0.167 GAGCTG GATCTG GACCTG
3904 -> 3925 : 22 <9> [2.44] 0.077 TGGTCGGCA TGGTCGGCT TGGT
4611 -> 4626 : 16 <7> [2.29] 0.111 CCGCTGA CCGCCGA CC
8829 -> 8847 : 19 <6> [3.17] 0.154 CGTTTG CGATTG CGATCG C
err-rateが0でないリピートも検出されている。
領域1000-12000まで、最低3回以上続くダイレクトリピートを探し、lessに渡す。
mreps -res 3 -exp 3.0 -from 10000 -to 12000 input.fa |less
- -s specifies the sequence in command line
- -fasta allows DNA sequences in FASTA format
- -res "resolution" (error level)
- -from starting position n
- -to end position n
- -minsize repeats whose size is at least n
- -maxsize repeats whose size is at most n
- -minperiod repeats whose period is at least n
- -maxperiod repeats whose period is at most n
- -exp repeats whose exponent is at least x
- -allowsmall output small repeats that can occur randomly
- -win process by sliding windows of size 2*n overlaping
引用
mreps: efficient and flexible detection of tandem repeats in DNA
R. Kolpakov, G. Bana, and G. Kucherov
Nucleic Acid Research, 31 (13), July 1 2003, pp 3672-3678.
Finding approximate repetitions under Hamming distance
R. Kolpakov, G. Kucherov
Theoretical Computer Science, 2003, vol 303 (1), pp 135-156.