macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

RepeatScoutでトランスポゾンなどのリピートをde novoで探す

 RepeatScoutはゲノム中のトランスポゾンなどのリピートを探すツール。リピートを見つけると、そのシードを保存性がなくなるまで伸長する戦略をとることで、見つかりにくい長くてやや配列に違いがあるリピートまで探索することが可能とされる(タンデムリピートやlow-complexityリピートは本手法のターゲットではない)。

 オーサーらの用意したデータでは、競合のRECONと比較して10倍以上短い時間で、2倍以上のリピートが検出されている。 RepeatMaskerの出力に対応している。

 

 

インストール

依存

  • Tandem Repeats Finder

https://tandem.bu.edu/trf/trf409.macosx.download.html

  • RepeatMasker

http://www.repeatmasker.org/RMDownload.html

Tandem Repeat Finderはバイナリをダウンロードして、trfとリネームする。RepeatMaskerはここからダウンロードして解凍し、”perl ./configure”して指示に従っていくだけでインストールできる。途中で聞かれるperlのパスはosxなら "/usr/bin/perl"、他のツールのパスはwhichで確認する。最後のサーチエンジンは用途に応じて1つ以上選ぶ。

 

Github

https://github.com/mmcco/RepeatScout

brewで導入できるが、サブコマンドが入らないので自分でビルドする。

git clone https://github.com/mmcco/RepeatScout.git
cd RepeatScout
make

フォルダ全体にパスを通しておく。trfにリネームしたTandem Repeats Finderもここにコピーしておく。

 

リピートライブラリ

http://bix.ucsd.edu/repeatscout/

 

ラン

ランは複数段階で行う。

1、データベースのビルド。全ての1-merの配列をpick upしてテーブルにする。

build_lmer_table -l 14 -sequence input.fasta -freq output.freq

2、そのテーブルファイルからFASTAを作る。

RepeatScout -sequence input.fasta -output output_repeats.fasta -freq output.freq -l 14

3、単純リピートなどを除外する。またデフォルトでは繰り返し数が10以下のリピートも排除する。

cat output_repeats.fasta | filter-stage-1.prl > repeats_filtered_stg1.fasta

4、RepeatMaskerでフィルタリングされた領域を分析する。

RepeatMasker -pa 20 -s -lib repeats_filtered_stg1.fasta input.fasta &

5、step4と並行して、規定回数登場しなかったリピートを排除する作業を行う。

cat repeats_filtered_stg1.fasta | filter-stage-2.prl --cat=Final_assembly.fasta.out --thresh=3 > repeats_filtered_stg2.fasta

6、RepeatMaskerで検出された部位を元に、step5の結果から最終的なリピート情報を出力する。

RepeatMasker -pa 20 -s -lib repeats_filtered_stg2.fasta input.fasta

 

 

 

 

 

 

引用

De novo identification of repeat families in large genomes.

Price AL1, Jones NC, Pevzner PA.

Bioinformatics. 2005 Jun;21 Suppl 1:i351-8.

 

SEQanswers

http://seqanswers.com/forums/showthread.php?t=5448