macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

高速なk-merカウントツール KMC

KMCは高速なk-merカウントの方法論。初代KMC、KMC2、KMC3が発表されている。ここではversion3のKMC3について記載する。ヒトゲノムの619GBのgz圧縮fastqを89分で分析できたと書かれている(2.3GHzの12コア、HDD2台のストライピング読み書き)(注1)。

 

 

インストール

公式HP

http://sun.aei.polsl.pl/REFRESH/index.php?page=projects&project=kmc&subpage=download

./kmc #動作確認

user$ lordec-correct

user$ kmc

K-Mer Counter (KMC) ver. 3.0.0 (2017-01-28)

Usage:

 kmc [options] <input_file_name> <output_file_name> <working_directory>

 kmc [options] <@input_file_names> <output_file_name> <working_directory>

Parameters:

  input_file_name - single file in FASTQ format (gziped or not)

  @input_file_names - file name with list of input files in FASTQ format (gziped or not)

Options:

  -v - verbose mode (shows all parameter settings); default: false

  -k<len> - k-mer length (k from 1 to 256; default: 25)

  -m<size> - max amount of RAM in GB (from 1 to 1024); default: 12

  -sm - use strict memory mode (memory limit from -m<n> switch will not be exceeded)

  -p<par> - signature length (5, 6, 7, 8, 9, 10, 11); default: 9

  -f<a/q/m> - input in FASTA format (-fa), FASTQ format (-fq) or multi FASTA (-fm); default: FASTQ

  -ci<value> - exclude k-mers occurring less than <value> times (default: 2)

  -cs<value> - maximal value of a counter (default: 255)

  -cx<value> - exclude k-mers occurring more of than <value> times (default: 1e9)

  -b - turn off transformation of k-mers into canonical form

  -r - turn on RAM-only mode 

  -n<value> - number of bins 

  -t<value> - total number of threads (default: no. of CPU cores)

  -sf<value> - number of FASTQ reading threads

  -sp<value> - number of splitting threads

  -sr<value> - number of threads for 2nd stage

Example:

kmc -k27 -m24 NA19238.fastq NA.res \data\kmc_tmp_dir\

kmc -k27 -m24 @files.lst NA.res \data\kmc_tmp_dir\

brewでもversion3が導入できる。

 

ラン

 

kmc -k27 -m24 input.fq output working_directory
  • -k <len> k-mer length (k from 1 to 256; default: 25)
  • -m <size> max amount of RAM in GB (from 1 to 1024); default: 12

 

 

注1

 分散メモリ環境ならさらに高速なツールも発表されています。

https://www.ncbi.nlm.nih.gov/pubmed/28991750

 

 

引用

KMC 3: counting and manipulating k-mer statistics

Marek Kokot Maciej Długosz Sebastian Deorowicz

Bioinformatics, Volume 33, Issue 17, 1 September 2017, Pages 2759–2761

 

KMC 2: fast and resource-frugal k-mer counting

Sebastian Deorowicz Marek Kokot Szymon Grabowski Agnieszka Debudaj-Grabysz

Bioinformatics, Volume 31, Issue 10, 15 May 2015, Pages 1569–1576

 

Disk-based k-mer counting on a PC

Sebastian Deorowicz, Agnieszka Debudaj-Grabysz and Szymon Grabowski

BMC Bioinformatics201314:160