macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

  

 RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが多い。例えば、イネのTEライブラリを使い、TEがゲノムの90%を占めるとされるトウモロコシのTEを検索すると、TEは25%しか検出されない。そのため、de novoでTEを検出可能なツールが必要になる。

 Recon、RepeatScout、RepeatGlueは新規にリピートを検索することが可能だが、計算時間の問題から制限があったり、リピート中に置換があると検出感度が低下する問題がある。phRAIDERは置換の存在下でも短い時間で全ゲノムからリピートを検出する。RepeatScoutより10倍以上高速化していて、感度を維持しつつヒト全ゲノムを3時間で解析することが可能になっている。

 

インストール

本体 Github

https://github.com/karroje/phRAIDER

git clone https://github.com/karroje/phRAIDER.git
cd phRAIDER/phRAIDER/
make phRAIDER
./phRAIDER

 

user $ ./phRAIDER -h

RAIDER2 - RAIDER - Rapid Ab Initio Detection of Elementary Repeats

==================================================================

 

SYNOPSIS

    RAIDER2 [OPTIONS] "SEQUENCE_FILE" "OUTPUT_DIRECTORY"

 

DESCRIPTION

    RAIDER2 parses the given sequence file using the supplied mask (spaced seed) to identify de novo repeats. Minimum

    repeat size and other options can be configured as described below.

 

    -h, --help

          Displays this help message.

    --version

          Display version information

    -s, --seed STR

          Spaced seed/mask to use. Defaults to 111110011111110001111111000000000000011111.

    -mf, --mask_file STR

          Masked sequence file. Default: none

    -ff, --filter_file STR

          Filter file. Default: none

    -m, --min NUM

          Minimum repeat length. Defaults to pattern length.

    -c, --count NUM

          Minimum number of repeats in a family. Defaults to 5.

    -q, --quiet

          Set verbosity to a minimum.

    -v, --verbose

          Enable verbose output.

    -vv, --verbose+

          Enable extremely verbose output.

    -a, --age NUM

          Age of raiderv2. Defaults to 1.

    -na, --noarray

          Disable family array (enabled by default).

    -e, --excise

          Enable excising (disabled by default).

    -no, --overlaps

          Require overlaps (not required by default).

    -t, --tieup

          Enable alternate tie up (disabled by default).

    -ps, --prosplit

          Enable proactive splitting(disabled by default).

    -pf, --prevfam

          Enable pointers to prev family (disabled by default).

    -sbl, --skipbacklist

          Enable skip back list (disabled by default).

    -p, --prescan

          Enable prescan.

 

EXAMPLES

    raider -v -s 1110110111 chr23.fasta "chr23_out"

          Call with mask "1110110111" and verbose output.

 

VERSION

    RAIDER2 version: 2.0

    Last update June 2015

__ARGUMENTS____________________________________________________________________

VERBOSITY 1

MIN_LENGTH 0

MIN_COUNT 0

SPACED_SEED     

SEQUENCE_FILE

OUTPUT_DIRECTORY

Loading sequence...

Error: unable to open sequence.

phRAIDERをパスの通ったディレクトリに移動しておく。

 

ラン

TEを検出する。

mkdir output
phRAIDER --verbose -c 5 input.fasta output/ -mf output/mask.fasta
  •  -c, --count <NUM>  Minimum number of repeats in a family. Defaults to 5.
  • -s, --seed <STR> Spaced seed/mask to use. Defaults to 111110011111110001111111000000000000011111.
  • -v, --verbose Enable verbose output.
  • -mf <STR> Masked sequence file. Default: none
  • -m, --min <NUM> Minimum repeat length. Defaults to pattern length.

4つのファイルが出力される。

f:id:kazumaxneo:20171228001348j:plain

elementには同じグループのTEがまとめられている。左端の番号がグループ番号となる。3という名のグループは11検出された。100 以下の短い領域も検出されている。

f:id:kazumaxneo:20171228001237j:plain

mask.fastaは検出されたリピートがNでマスクされたFASTAとなる。

 

 

引用

phRAIDER: Pattern-Hunter based Rapid Ab Initio Detection of Elementary Repeats

Schaeffer CE, Figueroa ND, Liu X, Karro JE

Bioinformatics. 2016 Jun 15;32(12):i209-i215