macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Mulit-FASTAの分割 (split)

 

BBtoolsを使うと簡単にマルチFASTAを分割できる(BBtools)。

user$ partition.sh 

 

Written by Brian Bushnell

Last modified June 16, 2016

 

Description:  Splits a sequence file evenly into multiple files.

 

Usage:  partition.sh in=<file> in2=<file2> out=<outfile> out2=<outfile2> ways=<number>

 

in2 and out2 are for paired reads and are optional.

If input is paired and out2 is not specified, data will be written interleaved.

Output filenames MUST contain a '%' symbol.  This will be replaced by a number.

 

 

5クロモソームを分割するなら、以下のようにコマンドを打つ。

partition.sh in=input.fasta out=chromosome%.fasta ways=5
  • ways=1 The number of output files to create; must be positive.

ヒトゲノムなどの大きなゲノムなら-Xmx20G などをつけておく(javaの使用メモリ20 GB)。 

 

wayは出力ファイル数。fastaの数以上にすると、余剰分は空ファイルが出力される。FASTAがいくつあるか分からなければ、最初にgrepを使ってFASTA数を調べる。

grep -n ">" input.fasta |wc -l

 

linuxなら以下のコマンドでも分割できる。

csplit -z input.fasta '/>/' '{*}'

 

bamの分割にはbamtoolsが使えます。


 

引用

Biostars

https://www.biostars.org/p/2226/