macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

RNA seqのエラーコレクションツール Rcorrector

2020 8/7 インストール追記

 

Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレクションツールSEECERより1桁メモリ要求量が少なく、ラップトップマシンでの実行が可能になっている。

 

インストール

cent OSに導入した。

依存

Jellyfishbrewで導入できる。

 

本体 Github

#bioconda (link)
conda install -c bioocnda rcorrector -y

#homebrew
brew install Rcorrector

> run_rcorrector.pl #動作確認

$ run_rcorrector.pl 

Usage: perl ./run_rcorrector.pl [OPTIONS]

OPTIONS:

Required parameters:

-s seq_files: comma separated files for single-end data sets

-1 seq_files_left: comma separated files for the first mate in the paried-end data sets

-2 seq_files_right: comma separated files for the second mate in the paired-end data sets

-i seq_files_interleaved: comma sperated files for interleaved paired-end data sets

Other parameters:

-k kmer_length (<=32, default: 23)

-od output_file_directory (default: ./)

-t number_of_threads (default: 1)

-maxcorK INT: the maximum number of correction within k-bp window (default: 4)

-wk FLOAT: the proportion of kmers that are used to estimate weak kmer count threshold, lower for more divergent genome (default: 0.95)

-ek expected_number_of_kmers: does not affect the correctness of program but affect the memory usage (default: 100000000)

-stdout: output the corrected reads to stdout (default: not used)

-verbose: output some correction information to stdout (default: not used)

-stage INT: start from which stage (default: 0)

0-start from begining(storing kmers in bloom filter);

1-start from count kmers showed up in bloom filter;

2-start from dumping kmer counts into a jf_dump file;

3-start from error correction.

 

実行方法

サンプルデータを使ってエラー補正行う。

run_rcorrector.pl -1 Sample/sample_read1.fq -2 Sample/sample_read2.fq

sample_read1.cor.fqと sample_read2.cor.fqが出力される。

 

引用

Rcorrector: efficient and accurate error correction for Illumina RNA-seq reads

Li Song and Liliana Florea

GigaScience 2015 4:48