macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

TE及び単純反復をDe novoで検出する Red

2020 10/5 インストール追記

 

 技術の急速な進歩により、何千もの種のゲノムの配列が利用できるようになってきている。これらの配列の中には、ゲノムの大部分を構成するリピートが含まれている。そのため、アノテーションを成功させるためには、リピートを正確に発見する必要がある。このように、新たに配列決定されたゲノムに含まれるリピートは、種特異的な要素であるため、知られていない可能性が高い。そのため、新たに配列決定されたゲノムのアノテーションを行うためには、de-novoでリピートを発見するツールが必要となる。しかし、現在利用可能なde-novoツールは、入力配列の大きさ、使いやすさ、主要なリピートの種類に対する感度、性能の一貫性、速度、偽陽性率などに限界がある。

 これらの限界に対処するために、著者は機械学習を適用したRedを設計、開発した。Redは、トレーニングデータにラベルを付け、ゲノム全体に対して自動的にトレーニングを行うことができる初めてのリピート検出ツールである。Redはインストールも使用も簡単である。対照的に、RepeatScoutやReConのようなツールはトランスポゾンに、WindowMaskerは単純リピートに敏感である。Redは7つのゲノムで一貫して良好なパフォーマンスを示したが、他のツールは一部のゲノムでのみ良好なパフォーマンスを示した。RedはRepeatScoutやReConよりもはるかに高速で、WindowMaskerよりもはるかに低い偽陽性率を持っている。5個以上のコピーを持つヒト遺伝子では、RedはRepeatScoutよりも大差で特異性が高い。珍しいヌクレオチド構成のゲノムでテストした場合、Redは高い感度でリピートの位置を特定し、中程度の偽陽性率を維持した。Redは、細菌のゲノムでは、関連ツールよりも優れた性能を発揮した。Redはヒトゲノムにおいて46,405個の新規反復セグメントを同定した。最後に、Redはアセンブルされたゲノムとされていないゲノムを両方処理することができる。

 

RedはTE及び単純反復の検出ツール。機械学習を通して訓練された。バクテリアゲノムでのテストでは既存のツールより高速に動作し(バクテリアなら10秒程度)、中程度の偽陽性率であった。よく知られている既存のリピート検出ツールと異なり、ほかのアライメントツールなどへ依存がないため、簡単に使用することができる。

 

 ダウンロード

ubuntu16.04でテストした。

下記から実行ファイルのBinaryをダウンロードする。

http://toolsmith.ens.utulsa.edu

 

#bioconda 
conda install -c bioconda -y red

> ./Red

user$ ./Red

 

 

This is Red (REpeat Detector) designed and developed by Hani Zakaria Girgis, PhD.

 

Version: 05/22/2015

 

Argument pairs of the form: -flag value are required.

Valid argument pairs:

-gnm input genome directory, required.

Files with ".fa" extension in this directory are used for completing the table of the adjusted counts.

These Files are scanned for repeats.

-dir directory including additional input sequences, optional.

Files with ".fa" extension in this directory are NOT used for completing the table.

These Files MUST have different names from those in the genome directory.

These Files are scanned for repeats.

-len word length equals k defining the k-mer. The default is floor(log_4(genome size)).

-ord order of the background Markov chain. The default is floor(k/2)-1.

-gau half width of the mask. The default is based on the GC content.

20 if the GC content > 33% and < 67%, 40 otherwise.

-thr the threshold score of the low adjusted scores of non-repeats. The default is 2.

-min the minimum number of the observed k-mers. The default is 3.

-tbl file where the table of the adjusted counts is written, optional.

-sco directory where scores are saved, optional.

Score files have the ".scr" extension.

-cnd directory where candidate regions are saved, optional.

Candidates files have the ".cnd" extension.

-rpt directory where repeats locations are saved, optional.

Repeats files have the ".rpt" extension.

-msk directory where masked sequences are saved, optional.

Masked sequences files have the ".msk" extension.

-frm the format of the output: 1 (chrName:start-end) or 2 (chrName start end).

The output format are zero based and the end is exclusive.

-hmo file where the HMM is saved, optional.

 

Examples:

The following command runs Red with the defaults and generates the masked sequences.

Red -gnm genome_directory -msk output_directory

 

The following command runs Red with the defaults and generates the masked sequences and the locations of repeats.

Red -gnm genome_directory -msk output_directory -rpt output_directory

 

解凍して、"Red"をパスの通ったディレクトリに移動する。

 

実行方法

FASTAファイルが入ったディレクリを指定してランする。

mkdir output #出力フォルダの作成
Red -gnm input/ -msk output -rpt output
  •  -msk <directory> where masked sequences are saved, optional.-msk directory where masked sequences are saved, optional. Masked sequences files have the ".msk" extension.
  • -gnm <input genome directory> required.-gnm input genome directory, required. Files with ".fa" extension in this directory are used for completing the table of the adjusted counts. These Files are scanned for repeats.
  • -rpt <directory> where repeats locations are saved, optional.-rpt directory where repeats locations are saved, optional. Repeats files have the ".rpt" extension.
  • -cnd <directory>   where candidate regions are saved, optional.

-rpt-cndはoptional。

出力例

f:id:kazumaxneo:20171228005551j:plain

inout.mskがリピートマスクされたFASTA出力。リピートは小文字に変換して出力される。

 

引用

Red: an intelligent, rapid, accurate tool for detecting repeats de-novo on the genomic scale

Hani Z. Girgis.

BMC Bioinformatics. 2015; 16: 227.