RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが多い。例えば、イネのTEライブラリを使い、TEがゲノムの90%を占めるとされるトウモロコシのTEを検索すると、TEは25%しか検出されない。そのため、de novoでTEを検出可能なツールが必要になる。
Recon、RepeatScout、RepeatGlueは新規にリピートを検索することが可能だが、計算時間の問題から制限があったり、リピート中に置換があると検出感度が低下する問題がある。phRAIDERは置換の存在下でも短い時間で全ゲノムからリピートを検出する。RepeatScoutより10倍以上高速化していて、感度を維持しつつヒト全ゲノムを3時間で解析することが可能になっている。
インストール
https://github.com/karroje/phRAIDER
git clone https://github.com/karroje/phRAIDER.git
cd phRAIDER/phRAIDER/
make phRAIDER
./phRAIDER
user $ ./phRAIDER -h
RAIDER2 - RAIDER - Rapid Ab Initio Detection of Elementary Repeats
==================================================================
SYNOPSIS
RAIDER2 [OPTIONS] "SEQUENCE_FILE" "OUTPUT_DIRECTORY"
DESCRIPTION
RAIDER2 parses the given sequence file using the supplied mask (spaced seed) to identify de novo repeats. Minimum
repeat size and other options can be configured as described below.
-h, --help
Displays this help message.
--version
Display version information
-s, --seed STR
Spaced seed/mask to use. Defaults to 111110011111110001111111000000000000011111.
-mf, --mask_file STR
Masked sequence file. Default: none
-ff, --filter_file STR
Filter file. Default: none
-m, --min NUM
Minimum repeat length. Defaults to pattern length.
-c, --count NUM
Minimum number of repeats in a family. Defaults to 5.
-q, --quiet
Set verbosity to a minimum.
-v, --verbose
Enable verbose output.
-vv, --verbose+
Enable extremely verbose output.
-a, --age NUM
Age of raiderv2. Defaults to 1.
-na, --noarray
Disable family array (enabled by default).
-e, --excise
Enable excising (disabled by default).
-no, --overlaps
Require overlaps (not required by default).
-t, --tieup
Enable alternate tie up (disabled by default).
-ps, --prosplit
Enable proactive splitting(disabled by default).
-pf, --prevfam
Enable pointers to prev family (disabled by default).
-sbl, --skipbacklist
Enable skip back list (disabled by default).
-p, --prescan
Enable prescan.
EXAMPLES
raider -v -s 1110110111 chr23.fasta "chr23_out"
Call with mask "1110110111" and verbose output.
VERSION
RAIDER2 version: 2.0
Last update June 2015
__ARGUMENTS____________________________________________________________________
VERBOSITY 1
MIN_LENGTH 0
MIN_COUNT 0
SPACED_SEED
SEQUENCE_FILE
OUTPUT_DIRECTORY
Loading sequence...
Error: unable to open sequence.
phRAIDERをパスの通ったディレクトリに移動しておく。
ラン
TEを検出する。
mkdir output
phRAIDER --verbose -c 5 input.fasta output/ -mf output/mask.fasta
- -c, --count <NUM> Minimum number of repeats in a family. Defaults to 5.
- -s, --seed <STR> Spaced seed/mask to use. Defaults to 111110011111110001111111000000000000011111.
- -v, --verbose Enable verbose output.
- -mf <STR> Masked sequence file. Default: none
- -m, --min <NUM> Minimum repeat length. Defaults to pattern length.
4つのファイルが出力される。
elementには同じグループのTEがまとめられている。左端の番号がグループ番号となる。3という名のグループは11検出された。100 以下の短い領域も検出されている。
mask.fastaは検出されたリピートがNでマスクされたFASTAとなる。
引用
phRAIDER: Pattern-Hunter based Rapid Ab Initio Detection of Elementary Repeats
Schaeffer CE, Figueroa ND, Liu X, Karro JE
Bioinformatics. 2016 Jun 15;32(12):i209-i215