macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

De novoで散在性反復配列を検出する REPrise

 

 真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。しかし、既存のツールでは十分なリピート検出性能が得られていない。

 本研究では、seed-and-extension法に基づくde novoインタースパースリピート検出ソフトウェアプログラムであるREPriseを開発した。REPriseのアルゴリズムは、現在デファクトスタンダードであるRepeatScoutのアルゴリズムと類似しているが、本著者らはREPriseに3つのユニークな技術を組み込んだ:inexact seeding, affine gap scoring and loose masking。イネとシミュレーションゲノムのデータセットを解析した結果、特にリピート配列に多くの変異が含まれる場合、REPriseは感度の点でRepeatScoutを上回った。さらに、完全なヒトゲノムデータセットT2T-CHM13に適用したところ、REPriseは新規リピート配列ファミリーを検出する可能性を示した。REPriseのソースコードは、https://github.com/hmdlab/REPrise で自由に利用できる。REPriseを用いてT2Tゲノムに予測されたリピートアノテーションhttps://waseda.box.com/v/REPrise-dataから利用できる。

 

インストール

Github

git clone https://github.com/hmdlab/REPrise.git
cd REPrise/
make

> ./REPrise -h

REPrise: de novo interspersed repeat detection software. version 1.0

 

Usage

 

REPrise [-input genome file] [-output outputname] [Options]

 

Options

(Required)

   -input  STR         input file name. You can input assembled genome file, or hard masked genome file

   -output STR         output file name. REPrise outputs STR.freq, STR.bed STR.masked and STR.reprof (consensus seqnences)

 

(Optional)

   -h                  Print help and exit

   -v                  Verbose

 

   -match INT          Match score of the extension alignment (default = 1)

   -match INT          Mismatch score of the extension alignment (default = -1)

   -gap   INT          Gap open score of the extension alignment (default = -5)

   -gapex  INT         Gap extension score of the extension alignment (default = -1)

   -capplenalty INT    Penalty of the imcomplete length alignment (default = -20)

   -dist INT           Number of mismatches allowed in inexact seed (default = 0)

 

   -maxextend INT      Uppler limit length of extension in one side direction of consensus repeat (default = 10000)

   -maxrepeat INT      Maximum Number of elements belonging to one repeat family (default = 100000)

   -maxgap INT         Band size(= maximum number of gaps allowed) of extension alignment (default = 5)

   -stopafter INT      If the maximum score of extension alignment does not change INT consecutive times, that alignment will stop (default = 100)

   -minlength INT      Minimum number of length of the consensus sequence of repeat family(default = 50)

   -minfreq INT        Minimum number of elements  belonging to one repeat family (default = 3)

   -minimprovement INT Penalty associated with the number of regions to be extended as the repeat regions (default = 3)

   -tandemdist INT     Interval to match the same seed to avoid seed matching with tandem repeats(default = 500)

 

   -pa INT             Number of openMP parallel cores

 

 

実行方法

fasta形式のゲノム配列を指定する。

REPrise -input genome.fa -output out -dist 1 -pa 20
  • -dist    Number of mismatches allowed in inexact seed (default = 0)
  • -input    input file name. You can input assembled genome file, or hard masked genome file
  • -output    output file name. REPrise outputs STR.freq, STR.bed STR.masked and STR.reprof (consensus seqnences)
  • -pa   Number of openMP parallel cores

出力例(シロイヌナズナゲノム使用、3990Xの20スレッド使用で20分程度かかった)

 

 

出力はCD-HIT(ヌクレオチドを扱えるcd-hit-est)で代表配列を選抜する(クラスタリングする)ことが推奨されている(論文のFig.1)。レポジトリでは以下のコマンド例が提示されている。

cd-hit-est -i out.reprof -o clstr_out.reprof -c 0.8 -p 1

 

レポジトリと論文より

  • -distオプションは感度を向上させるのに有効なパラメータだが、計算時間が大幅に増加する可能性がある。distを2以上に設定する場合は注意する。
  • REPriseは、ヒトゲノムのような巨大なゲノム配列の全長にわたって配列解析を適用できる。

引用

REPrise: de novo interspersed repeat detection using inexact seeding
Atsushi Takeda, Daisuke Nonaka, Yuta Imazu, Tsukasa Fukunaga, Michiaki Hamada

bioRxiv, Posted January 24, 2024

 

関連