Redを使ったゲノムアセンブリのソフトマスクを行う redmask

タイトルの通りのツール。ランするにはRed (Repeat Detector) とbiopythonが必要。

インストール

mamba create -n red python=2.7 -y
conda activate red
#red,biopython,natsort
mamba install -c bioconda -y red biopython natsort

git clone https://github.com/nextgenusfs/redmask.git
cd redmask/

> python redmask.py -h

usage: redmask.py [-h] -i GENOME -o OUTPUT [-m MIN] [--training TRAINING]

[-l WORD_LEN] [-t THRESHOLD] [-g GAUSSIAN] [-c MARKOV_ORDER]

[--debug] [--version]

Wraper for Red - repeat identification and masking for genome annotation

optional arguments:

-h, --help show this help message and

exit

-i GENOME, --genome GENOME genome assembly FASTA format

(default: None)

-o OUTPUT, --output OUTPUT Output basename (default:

None)

-m MIN, --min MIN Minimum number of observed

k-mers (default: 3)

--training TRAINING Min length for training

(default: 1000)

-l WORD_LEN, --word_len WORD_LEN word length (kmer length)

(default: None)

-t THRESHOLD, --threshold THRESHOLD threshold of low adjusted

scores of non-repeats

(default: None)

-g GAUSSIAN, --gaussian GAUSSIAN Gaussian smoothing width

(default: None)

-c MARKOV_ORDER, --markov_order MARKOV_ORDER Order of background markov

chain (default: None)

--debug Keep intermediate files

(default: False)

--version show program's version number

and exit

Written by Jon Palmer (2018) nextgenusfs@gmail.com

実行方法

fasta形式のゲノム配列を指定する。

python redmask.py -i assembly.fasta -o output

出力例

f:id:kazumaxneo:20211224090511p:plain

ランが終わるとRedによって検出されたリピート配列のfastaとBEDファイル、検出されたリピート配列が小文字になった配列（ソフトマスクされた配列）、が出力される。

引用

GitHub - nextgenusfs/redmask: Genome assembly soft-masking using Red (REpeat Detector)

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Redを使ったゲノムアセンブリのソフトマスクを行う redmask