macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

illuminaのエラーコレクションツール Musket

 Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。

 

公式HP

http://musket.sourceforge.net/homepage.htm

 

インストール

cent OSに導入した。

SourceForge

http://sourceforge.net/projects/musket

tar xvf musket-1.1.tar
cd musket-1.1 2/
make
./musket #動作確認

1.1]$ ./musket 

 

MUSKET (version 1.1) is a parallel multi-stage k-mer based error corrector

Usage: musket [options] file [file1 ...]

Basic Options:

-k <int uint> (specify two paramters: k-mer size and estimated total number of k-mers for this k-mer size)

  (e.g. estimated number of k-mers: 67108864, 134217728, 268435456 and 536870912)

-o <str> (the single output file name)

-omulti <str> (prefix of output file names, one input corresponding one output)

-p <int> (number of threads [>=2], default=2)

-zlib <int> (zlib-compressed output, default=0)

-maxtrim <int> (maximal number of bases that can be trimmed, default=0)

    (keeping the longest error-free substring of a read

-inorder (keep sequences outputed in the same order with the input)

-lowercase (write corrected bases in lowercase, default=0)

Advanced:

-maxbuff <int> (capacity of message buffer for each worker, default=1024)

-multik <bool> (enable the use of multiple k-mer sizes, default=0)

-maxerr <int> (maximal number of mutations in any region of length #k, default=4)

-maxiter <int> (maximal number of correcting iterations per k-mer size, default=2)

-minmulti <int> (minimum multiplicty for correct k-mers [only applicable when not using multiple k-mer sizes], default=0)

 

 

 

ラン

musket -omulti myout -inorder pair1.fastq pair2.fastq -p 12
  • -omulti <str> (prefix of output file names, one input corresponding one output)
  • -inorder (keep sequences outputed in the same order with the input)
  • -p <int>  (number of threads [>=2], default=2)
  • -zlib <int>  (zlib-compressed output, default=0)

 myput.0とmyout.1ができる。

 

 

 

 

k-merのサイズはデフォルトで21だが、-kオプションで変更可能である。ただし最大サイズはコンパイル前に最大28に設定されている。k-merをもっと大きな値に設定したければ、ソースファイルのmakefileのMAX_KMER_SIZEを変えて再度コンパイルする。同様にリード長も200以下になっており、200bp以上のリードを扱うなら設定を変えてコンパイルする必要がある。

Musket - a multistage k-mer spectrum based corrector

 

 引用

Musket: a multistage k-mer spectrum-based error corrector for Illumina sequence data.

Liu Y1, Schröder J, Schmidt B.

Bioinformatics. 2013 Feb 1;29(3):308-15. doi: 10.1093/bioinformatics/bts690. Epub 2012 Nov 29.

 

ref.1

https://academic.oup.com/bib/article/16/4/588/347932

 

 

下記の比較ペーパーのadditional file1にマスカットのコマンドとパフォーマンス結果。