macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

demulitiplexしてサンプルを分割する sabre

 

sabreはバーコードをdemulitiplexするツール。バーコードを除いたあと、バーコードに従って分割する。バーコードがないリードは別ファイルにまとめて出力される。gzip入力もサポートしている。

 

インストール

Github

https://github.com/najoshi/sabre

git clone https://github.com/najoshi/sabre.git
cd sabre/
make
./sabre #動作確認

> ./sabre pe

$ ./sabre pe

 

Usage: sabre pe -f <paired-end fastq file 1> -r <paired-end fastq file 2> -b <barcode file> -u <unknown barcode output file 1> -w <unknown barcode output file 2>

 

Options:

-f, --pe-file1, Input paired-end fastq file 1 (required, must have same number of records as pe2)

-r, --pe-file2, Input paired-end fastq file 2 (required, must have same number of records as pe1)

-b, --barcode-file, File with barcode and two output file names per line (required)

-u, --unknown-output1, Output paired-end file 1 that contains records with no barcodes found. (required)

-w, --unknown-output2, Output paired-end file 2 that contains records with no barcodes found. (required)

-c, --both-barcodes, Optional flag that indicates that both fastq files have barcodes.

-m <n>, --max-mismatch <n>, Optional argument that is the maximum number of mismatches allowed in a barcode. Default 0.

--quiet, don't print barcode matching info

--help, display this help and exit

--version, output version information and exit

> ./sabre se

o$ sabre se

 

Usage: sabre se -f <fastq sequence file> -b <barcode file> -u <unknown barcode output file>

 

Options:

-f, --fastq-file, Input fastq file (required)

-b, --barcode-file, File with barcode and output file name per line (required)

-u, --unknown-output, Output file that contains records with no barcodes found. (required)

-m <n>, --max-mismatch <n>, Optional argument that is the maximum number of mismatches allowed in a barcode. Default 0.

--quiet, don't output matching info

--help, display this help and exit

--version, output version information and exit

 

パスの通ったディレクトリに移動しておく。

 

ラン

1、シングルエンド

バーコードのフォーマット

barcode1 barcode1_output_file.fastq
barcode2 barcode2_output_file.fastq
...
sabre se -f input_file.fastq -b barcode_data.txt -u unknown_barcode.fastq

 

2、ペアードエンド

バーコードのフォーマット

barcode1 barcode1_output_file1.fastq barcode1_output_file2.fastq
barcode2 barcode2_output_file1.fastq barcode2_output_file2.fastq
...
sabre pe -m 0 -f input_file1.fastq -r input_file2.fastq -b barcode_data.txt -u unknown_barcode1.fastq -w unknown_barcode1.fastq

両方のfastqにバーコードがあるなら、-cのフラグをつける。

 

 

引用

https://github.com/najoshi/sabre

 

https://blog.insidedna.me/insidedna-now-supports-sabre-a-barcode-demultiplexing-and-trimming-tool-for-fastq-files/