macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

コンティグごとにユニークなk-merを取り出す UniqueKMER

 

UniqueKMERはfastaファイルのコンティグごとにユニークなk-merを生成する。ユニークなk-merは、あるコンティグにのみ存在し、他のコンティグには存在しないk-merキーで構成されている(順鎖、逆鎖の両方)。本ツールは、多数のコンティグで構成されたFASTAファイルを入力とし、コンティグごとにユニークなk-merを抽出する。

出力されたユニークなk-merファイルとGenomeファイルは、シーケンスデータから微生物の配列を識別して視覚化する超高速ツールであるfastv: https://github.com/OpenGene/fastv に使用することができる。

 

インストール

#linuxのバイナリが用意されている
wget http://opengene.org/uniquekmer/uniquekmer
chmod a+x ./uniquekmer

#from source
git clone https://github.com/OpenGene/UniqueKMER.git
cd UniqueKMER/
make
make install

> uniquekmer

# uniquekmer

UniqueKMER: Generate unique k-mers for every contig in a FASTA file.

version 0.1.0

usage: uniquekmer --fasta=string [options] ...

options:

-f, --fasta FASTA input file name (string)

-o, --outdir Directory for output. Default is unique_kmers in the current directory. (string [=unique_kmers])

-k, --kmer The length k of k-mer (10~32), default 25 (int [=25])

-s, --spacing If a key with POS is recorded, then skip [POS+1...POS+spacing] to avoid too compact result (0~100). default 0 means no skipping. (int [=0])

-g, --genome_limit Process up to genome_limit genomes in the FASTA input file. Default 0 means no limit. This option is for DEBUG. (int [=0])

-r, --ref Reference genome FASTA file name. Specify this only when you want to filter out the unique k-mer that can be mapped to reference genome. (string [=])

-e, --edit_distance k-mer mapped to reference genome with edit distance <= edit_distance will be removed (0~16). 3 for default. (int [=3])

-?, --help print this message

                              

 

 

実行方法

contig(multi-fasta)ファイルを指定する。k-mer値を指定するなら-kを使う。

uniquekmer -f contigs.fasta -k 16 -o outdir
  • -f, --fasta FASTA input file name (string)
  • -o, --outdir Directory for output. Default is unique_kmers in the current directory. (string [=unique_kmers])
  • -k, --kmer The length k of k-mer (10~32), default 25 (int [=25])

 

以下の内容を含むフォルダ(フォルダ名は-o/--outdirで指定可能)が出力される。

1、index.htmlファイル
2、kmercollection.fastaファイル

すべてのゲノム名とその固有のk-merをリストアップした1つのファイル。


3、genomes_kmers/

コンティグごとのk-merファイルとGenomeファイルがFASTA形式で格納されている。
index.htmlをブラウザで開き、コンティグ名をクリックすると、そのコンティグのk-merファイルとGenomeファイルを見つけることができる。

 

 

引用

Shifu Chen, Changshou He, Yingqiang Li, Zhicheng Li, Charles E Melancon III. A Computational Toolset for Rapid Identification of SARS-CoV-2, other Viruses, and Microorganisms from Sequencing Data. bioRxiv 2020.05.12.092163; doi: https://doi.org/10.1101/2020.05.12.092163

 

関連