macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Redを使ったゲノムアセンブリのソフトマスクを行う redmask

 

タイトルの通りのツール。ランするにはRed (Repeat Detector) とbiopythonが必要。

 

インストール

Github

mamba create -n red python=2.7 -y
conda activate red
#red,biopython,natsort
mamba install -c bioconda -y red biopython natsort

git clone https://github.com/nextgenusfs/redmask.git
cd redmask/

> python redmask.py -h

usage: redmask.py [-h] -i GENOME -o OUTPUT [-m MIN] [--training TRAINING]

                  [-l WORD_LEN] [-t THRESHOLD] [-g GAUSSIAN] [-c MARKOV_ORDER]

                  [--debug] [--version]

 

Wraper for Red - repeat identification and masking for genome annotation

 

optional arguments:

  -h, --help                                    show this help message and

                                                exit

  -i GENOME, --genome GENOME                    genome assembly FASTA format

                                                (default: None)

  -o OUTPUT, --output OUTPUT                    Output basename (default:

                                                None)

  -m MIN, --min MIN                             Minimum number of observed

                                                k-mers (default: 3)

  --training TRAINING                           Min length for training

                                                (default: 1000)

  -l WORD_LEN, --word_len WORD_LEN              word length (kmer length)

                                                (default: None)

  -t THRESHOLD, --threshold THRESHOLD           threshold of low adjusted

                                                scores of non-repeats

                                                (default: None)

  -g GAUSSIAN, --gaussian GAUSSIAN              Gaussian smoothing width

                                                (default: None)

  -c MARKOV_ORDER, --markov_order MARKOV_ORDER  Order of background markov

                                                chain (default: None)

  --debug                                       Keep intermediate files

                                                (default: False)

  --version                                     show program's version number

                                                and exit

 

Written by Jon Palmer (2018) nextgenusfs@gmail.com

 

 

実行方法

fasta形式のゲノム配列を指定する。

python redmask.py -i assembly.fasta -o output

 

出力例

f:id:kazumaxneo:20211224090511p:plain

ランが終わるとRedによって検出されたリピート配列のfastaとBEDファイル、検出されたリピート配列が小文字になった配列(ソフトマスクされた配列)、が出力される。

 

引用

GitHub - nextgenusfs/redmask: Genome assembly soft-masking using Red (REpeat Detector)

 

関連