2018 12/07 コマンド修正
2021 1/21 help更新
Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。
Musket HP
http://musket.sourceforge.net/homepage.htm
インストール
cent OSとubuntu18.04でテストした。
tar xvf musket-1.1.tar
cd musket-1.1 2/
make
./musket #動作確認
$ ./musket
MUSKET (version 1.1) is a parallel multi-stage k-mer based error corrector
Usage: musket [options] file [file1 ...]
Basic Options:
-k <int uint> (specify two paramters: k-mer size and estimated total number of k-mers for this k-mer size)
(e.g. estimated number of k-mers: 67108864, 134217728, 268435456 and 536870912)
-o <str> (the single output file name)
-omulti <str> (prefix of output file names, one input corresponding one output)
-p <int> (number of threads [>=2], default=2)
-zlib <int> (zlib-compressed output, default=0)
-maxtrim <int> (maximal number of bases that can be trimmed, default=0)
(keeping the longest error-free substring of a read
-inorder (keep sequences outputed in the same order with the input)
-lowercase (write corrected bases in lowercase, default=0)
Advanced:
-maxbuff <int> (capacity of message buffer for each worker, default=1024)
-multik <bool> (enable the use of multiple k-mer sizes, default=0)
-maxerr <int> (maximal number of mutations in any region of length #k, default=4)
-maxiter <int> (maximal number of correcting iterations per k-mer size, default=2)
-minmulti <int> (minimum multiplicty for correct k-mers [only applicable when not using multiple k-mer sizes], default=0)
実行方法
ペアエンド
musket -omulti output -inorder pair1.fastq pair2.fastq -p 12
- -omulti <str> (prefix of output file names, one input corresponding one output)
- -inorder (keep sequences outputed in the same order with the input)
- -p <int> (number of threads [>=2], default=2)
- -zlib <int> (zlib-compressed output, default=0)
output.0とoutput.1ができる。
シングルエンド
musket -omulti output single.fastq -p 12
k-merのサイズはデフォルトで21だが、-kオプションで変更可能である。ただし最大サイズはコンパイル前に最大28に設定されている。k-merをもっと大きな値に設定したければ、ソースファイルのmakefileのMAX_KMER_SIZEを変えて再度コンパイルする。同様にリード長も200以下になっており、200bp以上のリードを扱うなら設定を変えてコンパイルする必要がある。
Musket - a multistage k-mer spectrum based corrector
引用
Musket: a multistage k-mer spectrum-based error corrector for Illumina sequence data.
Liu Y, Schröder J, Schmidt B
Bioinformatics. 2013 Feb 1;29(3):308-15.
ref.1
https://academic.oup.com/bib/article/16/4/588/347932
下記の比較ペーパーのadditional file1にMusketのコマンドとパフォーマンス結果。