macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

TE及び単純反復をDe novoで検出する Red

 

RedはTE及び単純反復の検出ツール。機械学習を通して訓練された。バクテリアゲノムでのテストでは既存のツールより高速に動作し(バクテリアなら10秒程度)、中程度の偽陽性率であった。よく知られている既存のリピート検出ツールと異なり、ほかのアライメントツールなどへ依存がないため、簡単に使用することができる。

 

 

ダウンロード

ubuntu16.04でテストした。

下記から実行ファイルのBinaryをダウンロードする。

http://toolsmith.ens.utulsa.edu

> ./Red

user$ ./Red

 

 

This is Red (REpeat Detector) designed and developed by Hani Zakaria Girgis, PhD.

 

Version: 05/22/2015

 

Argument pairs of the form: -flag value are required.

Valid argument pairs:

-gnm input genome directory, required.

Files with ".fa" extension in this directory are used for completing the table of the adjusted counts.

These Files are scanned for repeats.

-dir directory including additional input sequences, optional.

Files with ".fa" extension in this directory are NOT used for completing the table.

These Files MUST have different names from those in the genome directory.

These Files are scanned for repeats.

-len word length equals k defining the k-mer. The default is floor(log_4(genome size)).

-ord order of the background Markov chain. The default is floor(k/2)-1.

-gau half width of the mask. The default is based on the GC content.

20 if the GC content > 33% and < 67%, 40 otherwise.

-thr the threshold score of the low adjusted scores of non-repeats. The default is 2.

-min the minimum number of the observed k-mers. The default is 3.

-tbl file where the table of the adjusted counts is written, optional.

-sco directory where scores are saved, optional.

Score files have the ".scr" extension.

-cnd directory where candidate regions are saved, optional.

Candidates files have the ".cnd" extension.

-rpt directory where repeats locations are saved, optional.

Repeats files have the ".rpt" extension.

-msk directory where masked sequences are saved, optional.

Masked sequences files have the ".msk" extension.

-frm the format of the output: 1 (chrName:start-end) or 2 (chrName start end).

The output format are zero based and the end is exclusive.

-hmo file where the HMM is saved, optional.

 

Examples:

The following command runs Red with the defaults and generates the masked sequences.

Red -gnm genome_directory -msk output_directory

 

The following command runs Red with the defaults and generates the masked sequences and the locations of repeats.

Red -gnm genome_directory -msk output_directory -rpt output_directory

 

解凍して、"Red"をパスの通ったディレクトリに移動する。

 

実行方法

FASTAファイルが入ったディレクリを指定してランする。

mkdir output #出力フォルダの作成
Red -gnm input/ -msk output -rpt output
  •  -msk <directory> where masked sequences are saved, optional.-msk directory where masked sequences are saved, optional. Masked sequences files have the ".msk" extension.
  • -gnm <input genome directory> required.-gnm input genome directory, required. Files with ".fa" extension in this directory are used for completing the table of the adjusted counts. These Files are scanned for repeats.
  • -rpt <directory> where repeats locations are saved, optional.-rpt directory where repeats locations are saved, optional. Repeats files have the ".rpt" extension.

-rptをつけると、リピート位置をプリントしたファイルも出力される。

f:id:kazumaxneo:20171228005551j:plain

inout.mskがリピートマスクされたFASTA出力。リピートは小文字に変換して出力される。

 

 

引用

Red: an intelligent, rapid, accurate tool for detecting repeats de-novo on the genomic scale

Hani Z. Girgis.

BMC Bioinformatics. 2015; 16: 227.