macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

mrepsでタンデムリピートを探す

mrepsはダイレクトリピートを探すツール。短い単位の繰り返し配列がタンデムに続く領域を検出することができる。

 

ミニチュートリアル

http://mreps.univ-mlv.fr/tutorial.html

webサーバー版

http://bioinfo.lifl.fr/mreps/mreps.php

 

インストール

Github

GitHub - gregorykucherov/mreps: mreps: software for tandem repeat identification in DNA

git clone https://github.com/gregorykucherov/mreps.git
cd mreps
make
mreps -h

 

ラン

デフォルト条件のラン。

mpreps -fasta input.fa > output

 出力

user$ head -20 out 

 

 *****************************************************************************

 *                              mreps 2.6                                    *

 *                                                                           *

 *                Finding tandem repeats in DNA sequences                    *

 *                                                                           *

 *                      http://mreps.univ-mlv.fr/                            *

 *****************************************************************************

 

Processing sequence 'chr'

 

* Processing window [1 : 2695903] *

 

   from   ->       to  :  size <per.> [exp.] err-rate sequence

 ---------------------------------------------------------------------------------------------

    2111  ->      2122 :    12  <3>  [4.00]  0.000 GAC GAC GAC GAC 

   18777  ->     18795 :    19  <9>  [2.11]  0.000 GACAACCGC GACAACCGC G 

   20562  ->     20579 :    18  <9>  [2.00]  0.000 TGGCAGCAA TGGCAGCAA 

   21928  ->     21944 :    17  <6>  [2.83]  0.000 CGATCG CGATCG CGATC 

   30984  ->     30998 :    15  <6>  [2.50]  0.000 GCGATC GCGATC GCG

バクテリアゲノムなら数秒以内に解析できる。GACx4のリピートなどが検出されている。末端のリピートは不完全でも検出されるため、expの列は必ずしも整数倍にはならない。

 

不完全なリピートを探すこともできる。

1塩基の間違いを許容してダイレクトリピートを探す。

mpreps -res 1 -fasta input.fa > output

出力

usr$ head -20 out 

 

 *****************************************************************************

 *                              mreps 2.6                                    *

 *                                                                           *

 *                Finding tandem repeats in DNA sequences                    *

 *                                                                           *

 *                      http://mreps.univ-mlv.fr/                            *

 *****************************************************************************

 

Processing sequence 'chr'

 

* Processing window [1 : 2695903] *

 

   from   ->       to  :  size <per.> [exp.] err-rate sequence

 ---------------------------------------------------------------------------------------------

    2111  ->      2122 :    12  <3>  [4.00]  0.000 GAC GAC GAC GAC 

    3048  ->      3065 :    18  <6>  [3.00]  0.167 GAGCTG GATCTG GACCTG 

    3904  ->      3925 :    22  <9>  [2.44]  0.077 TGGTCGGCA TGGTCGGCT TGGT 

    4611  ->      4626 :    16  <7>  [2.29]  0.111 CCGCTGA CCGCCGA CC 

    8829  ->      8847 :    19  <6>  [3.17]  0.154 CGTTTG CGATTG CGATCG C

err-rateが0でないリピートも検出されている。

 

 

領域1000-12000まで、最低3回以上続くダイレクトリピートを探し、lessに渡す。

mreps -res 3 -exp 3.0 -from 10000 -to 12000 input.fa |less
  •  -s specifies the sequence in command line
  • -fasta allows DNA sequences in FASTA format
  • -res "resolution" (error level)
  • -from starting position n
  • -to end position n
  • -minsize repeats whose size is at least n
  • -maxsize repeats whose size is at most n
  • -minperiod repeats whose period is at least n
  • -maxperiod repeats whose period is at most n
  • -exp repeats whose exponent is at least x
  • -allowsmall output small repeats that can occur randomly
  • -win process by sliding windows of size 2*n overlaping

 

 

 

引用

mreps: efficient and flexible detection of tandem repeats in DNA

R. Kolpakov, G. Bana, and G. Kucherov

Nucleic Acid Research, 31 (13), July 1 2003, pp 3672-3678.

 

Finding approximate repetitions under Hamming distance

R. Kolpakov, G. Kucherov

Theoretical Computer Science, 2003, vol 303 (1), pp 135-156.