タイトルの通りのツール。ランするにはRed (Repeat Detector) とbiopythonが必要。
インストール
mamba create -n red python=2.7 -y
conda activate red
#red,biopython,natsort
mamba install -c bioconda -y red biopython natsort
git clone https://github.com/nextgenusfs/redmask.git
cd redmask/
> python redmask.py -h
usage: redmask.py [-h] -i GENOME -o OUTPUT [-m MIN] [--training TRAINING]
[-l WORD_LEN] [-t THRESHOLD] [-g GAUSSIAN] [-c MARKOV_ORDER]
[--debug] [--version]
Wraper for Red - repeat identification and masking for genome annotation
optional arguments:
-h, --help show this help message and
exit
-i GENOME, --genome GENOME genome assembly FASTA format
(default: None)
-o OUTPUT, --output OUTPUT Output basename (default:
None)
-m MIN, --min MIN Minimum number of observed
k-mers (default: 3)
--training TRAINING Min length for training
(default: 1000)
-l WORD_LEN, --word_len WORD_LEN word length (kmer length)
(default: None)
-t THRESHOLD, --threshold THRESHOLD threshold of low adjusted
scores of non-repeats
(default: None)
-g GAUSSIAN, --gaussian GAUSSIAN Gaussian smoothing width
(default: None)
-c MARKOV_ORDER, --markov_order MARKOV_ORDER Order of background markov
chain (default: None)
--debug Keep intermediate files
(default: False)
--version show program's version number
and exit
Written by Jon Palmer (2018) nextgenusfs@gmail.com
実行方法
fasta形式のゲノム配列を指定する。
python redmask.py -i assembly.fasta -o output
出力例
ランが終わるとRedによって検出されたリピート配列のfastaとBEDファイル、検出されたリピート配列が小文字になった配列(ソフトマスクされた配列)、が出力される。
引用
GitHub - nextgenusfs/redmask: Genome assembly soft-masking using Red (REpeat Detector)
関連