真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。しかし、既存のツールでは十分なリピート検出性能が得られていない。
本研究では、seed-and-extension法に基づくde novoインタースパースリピート検出ソフトウェアプログラムであるREPriseを開発した。REPriseのアルゴリズムは、現在デファクトスタンダードであるRepeatScoutのアルゴリズムと類似しているが、本著者らはREPriseに3つのユニークな技術を組み込んだ:inexact seeding, affine gap scoring and loose masking。イネとシミュレーションゲノムのデータセットを解析した結果、特にリピート配列に多くの変異が含まれる場合、REPriseは感度の点でRepeatScoutを上回った。さらに、完全なヒトゲノムデータセットT2T-CHM13に適用したところ、REPriseは新規リピート配列ファミリーを検出する可能性を示した。REPriseのソースコードは、https://github.com/hmdlab/REPrise で自由に利用できる。REPriseを用いてT2Tゲノムに予測されたリピートアノテーションもhttps://waseda.box.com/v/REPrise-dataから利用できる。
インストール
git clone https://github.com/hmdlab/REPrise.git
cd REPrise/
make
> ./REPrise -h
REPrise: de novo interspersed repeat detection software. version 1.0
Usage
REPrise [-input genome file] [-output outputname] [Options]
Options
(Required)
-input STR input file name. You can input assembled genome file, or hard masked genome file
-output STR output file name. REPrise outputs STR.freq, STR.bed STR.masked and STR.reprof (consensus seqnences)
(Optional)
-h Print help and exit
-v Verbose
-match INT Match score of the extension alignment (default = 1)
-match INT Mismatch score of the extension alignment (default = -1)
-gap INT Gap open score of the extension alignment (default = -5)
-gapex INT Gap extension score of the extension alignment (default = -1)
-capplenalty INT Penalty of the imcomplete length alignment (default = -20)
-dist INT Number of mismatches allowed in inexact seed (default = 0)
-maxextend INT Uppler limit length of extension in one side direction of consensus repeat (default = 10000)
-maxrepeat INT Maximum Number of elements belonging to one repeat family (default = 100000)
-maxgap INT Band size(= maximum number of gaps allowed) of extension alignment (default = 5)
-stopafter INT If the maximum score of extension alignment does not change INT consecutive times, that alignment will stop (default = 100)
-minlength INT Minimum number of length of the consensus sequence of repeat family(default = 50)
-minfreq INT Minimum number of elements belonging to one repeat family (default = 3)
-minimprovement INT Penalty associated with the number of regions to be extended as the repeat regions (default = 3)
-tandemdist INT Interval to match the same seed to avoid seed matching with tandem repeats(default = 500)
-pa INT Number of openMP parallel cores
実行方法
fasta形式のゲノム配列を指定する。
REPrise -input genome.fa -output out -dist 1 -pa 20
- -dist Number of mismatches allowed in inexact seed (default = 0)
- -input input file name. You can input assembled genome file, or hard masked genome file
- -output output file name. REPrise outputs STR.freq, STR.bed STR.masked and STR.reprof (consensus seqnences)
- -pa Number of openMP parallel cores
出力例(シロイヌナズナゲノム使用、3990Xの20スレッド使用で20分程度かかった)
出力はCD-HIT(ヌクレオチドを扱えるcd-hit-est)で代表配列を選抜する(クラスタリングする)ことが推奨されている(論文のFig.1)。レポジトリでは以下のコマンド例が提示されている。
cd-hit-est -i out.reprof -o clstr_out.reprof -c 0.8 -p 1
レポジトリと論文より
- -distオプションは感度を向上させるのに有効なパラメータだが、計算時間が大幅に増加する可能性がある。distを2以上に設定する場合は注意する。
- REPriseは、ヒトゲノムのような巨大なゲノム配列の全長にわたって配列解析を適用できる。
引用
REPrise: de novo interspersed repeat detection using inexact seeding
Atsushi Takeda, Daisuke Nonaka, Yuta Imazu, Tsukasa Fukunaga, Michiaki Hamada
bioRxiv, Posted January 24, 2024
関連