macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

illuminaのエラーコレクションツール Musket

2018 12/07 コマンド修正

2021 1/21 help更新

 

Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。

 

Musket HP

http://musket.sourceforge.net/homepage.htm

 

インストール

cent OSとubuntu18.04でテストした。

SourceForge

tar xvf musket-1.1.tar
cd musket-1.1 2/
make
./musket #動作確認

$ ./musket 

 

MUSKET (version 1.1) is a parallel multi-stage k-mer based error corrector

Usage: musket [options] file [file1 ...]

Basic Options:

-k <int uint> (specify two paramters: k-mer size and estimated total number of k-mers for this k-mer size)

  (e.g. estimated number of k-mers: 67108864, 134217728, 268435456 and 536870912)

-o <str> (the single output file name)

-omulti <str> (prefix of output file names, one input corresponding one output)

-p <int> (number of threads [>=2], default=2)

-zlib <int> (zlib-compressed output, default=0)

-maxtrim <int> (maximal number of bases that can be trimmed, default=0)

    (keeping the longest error-free substring of a read

-inorder (keep sequences outputed in the same order with the input)

-lowercase (write corrected bases in lowercase, default=0)

Advanced:

-maxbuff <int> (capacity of message buffer for each worker, default=1024)

-multik <bool> (enable the use of multiple k-mer sizes, default=0)

-maxerr <int> (maximal number of mutations in any region of length #k, default=4)

-maxiter <int> (maximal number of correcting iterations per k-mer size, default=2)

-minmulti <int> (minimum multiplicty for correct k-mers [only applicable when not using multiple k-mer sizes], default=0)

 

 

 

実行方法

ペアエンド

musket -omulti output -inorder pair1.fastq pair2.fastq -p 12
  • -omulti <str> (prefix of output file names, one input corresponding one output)
  • -inorder (keep sequences outputed in the same order with the input)
  • -p <int>  (number of threads [>=2], default=2)
  • -zlib <int>  (zlib-compressed output, default=0)

 output.0とoutput.1ができる。

 

シングルエンド

musket -omulti output single.fastq -p 12

 

k-merのサイズはデフォルトで21だが、-kオプションで変更可能である。ただし最大サイズはコンパイル前に最大28に設定されている。k-merをもっと大きな値に設定したければ、ソースファイルのmakefileのMAX_KMER_SIZEを変えて再度コンパイルする。同様にリード長も200以下になっており、200bp以上のリードを扱うなら設定を変えてコンパイルする必要がある。

Musket - a multistage k-mer spectrum based corrector

 

 引用

Musket: a multistage k-mer spectrum-based error corrector for Illumina sequence data.

Liu Y, Schröder J, Schmidt B

Bioinformatics. 2013 Feb 1;29(3):308-15. 

 

ref.1

https://academic.oup.com/bib/article/16/4/588/347932

 

 

下記の比較ペーパーのadditional file1にMusketのコマンドとパフォーマンス結果。