macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

RNAのエラーコレクションツール Rcorrector

Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレクションツールSEECERより1桁メモリ要求量が少なく、ラップトップマシンでの実行が可能になっている。

 

インストール

cent OSに導入した。

依存

Jellyfishbrewで導入できる。

 

本体 Github

https://github.com/sheikhizadeh/ACE/

brewで導入できる。

brew install Rcorrector

run_rcorrector.pl #動作確認

ACE]$ run_rcorrector.pl 

Usage: perl ./run_rcorrector.pl [OPTIONS]

OPTIONS:

Required parameters:

-s seq_files: comma separated files for single-end data sets

-1 seq_files_left: comma separated files for the first mate in the paried-end data sets

-2 seq_files_right: comma separated files for the second mate in the paired-end data sets

-i seq_files_interleaved: comma sperated files for interleaved paired-end data sets

Other parameters:

-k kmer_length (<=32, default: 23)

-od output_file_directory (default: ./)

-t number_of_threads (default: 1)

-maxcorK INT: the maximum number of correction within k-bp window (default: 4)

-wk FLOAT: the proportion of kmers that are used to estimate weak kmer count threshold, lower for more divergent genome (default: 0.95)

-ek expected_number_of_kmers: does not affect the correctness of program but affect the memory usage (default: 100000000)

-stdout: output the corrected reads to stdout (default: not used)

-verbose: output some correction information to stdout (default: not used)

-stage INT: start from which stage (default: 0)

0-start from begining(storing kmers in bloom filter);

1-start from count kmers showed up in bloom filter;

2-start from dumping kmer counts into a jf_dump file;

3-start from error correction.

 

 

ラン

サンプルデータを使ってエラー補正行う。

run_rcorrector.pl -1 Sample/sample_read1.fq -2 Sample/sample_read2.fq

sample_read1.cor.fqと sample_read2.cor.fqが出力される。

 

引用

Rcorrector: efficient and accurate error correction for Illumina RNA-seq reads

Li Song and Liliana Florea

GigaScience20154:48