macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

samblasterでduplicationリードにタグをつける

 

samblasterは、samファイルのduplicationのリードにタグをつけたり、構造変化の指標となるsplit-alingment readやdiscordant read pairを別ファイルに出力できるツール。samの時点でデータをより分けることで、discordant read pairやsplit-alingment readを使ったlarge indel検出などを劇的に軽量化することが可能になる。2014年に論文として発表された。

 

 

インストール

Github

GitHub - GregoryFaust/samblaster: samblaster: a tool to mark duplicates and extract discordant and split reads from sam files.

 

git clone git://github.com/GregoryFaust/samblaster.git 
cd samblaster
make
cp samblaster /usr/local/bin/.

 

 

duplication、discordant-read、split-readの判定基準(下の方にあります)。

GitHub - GregoryFaust/samblaster: samblaster: a tool to mark duplicates and extract discordant and split reads from sam files.

 

 

 

ラン

 bwa memのアライメントの過程でduplicationにタグをつける。

bwa index -a is input.fa
bwa mem -t 12 -R "@RG\tID:X\tLB:Y\tSM:Z\tPL:ILLUMINA" input.fa *.fastq | samblaster |samtools view -@ 12 -Sb - |samtools sort -@ 12 - > samp.sorted.bam

 上のコマンドはfastqからbwa mem => samblaster => samtools view => samtools sortの流れでbamを作っている。samblasterはbwa memからsamファイルを受け取り、 duplication readsにタグをつけてsamtools viewに渡していることになる。

 今回は以下のようなメッセージがプリントされた。

samblaster: Marked 1874 of 339039 (0.55%) read ids as duplicates using 13344768k memory in 1.056S CPU seconds and 45S wall time.

1874リードがduplicationと判定されている。

 

 

見にくいので、ここから下はsamファイル出力として記載。

 

 

discordant-readとsplit-readは別ファイルに出力する。

bwa mem -t 12 -R "@RG\tID:X\tLB:Y\tSM:Z\tPL:ILLUMINA" input.fa *.fastq | samblaster -e -d samp.disc.sam -s samp.split.sam > output.sam
  • -e Exclude reads marked as duplicates from discordant, splitter, and/or unmapped file.
  • -d FILE Output discordant read pairs to this file. [no discordant file output]
  • -s FILE Output split reads to this file abiding by paramaters below. [no splitter file output]

  

duplication-readは全出力から除く。

bwa mem -t 12 -R "@RG\tID:X\tLB:Y\tSM:Z\tPL:ILLUMINA" input.fa *.fastq | samblaster -r -e -d samp.disc.sam -s samp.split.sam > output.sam
  •  -r Remove duplicates reads from all output files.  

 

 

 

 

 

 

 

 注意;bwa memで-M(mark shorter split hits as secondary)をつけている時は、samblasterにも-Mをつけてランを行う

  • -M  Compatibility mode (details below); both FLAG 0x100 and 0x800 denote supplemental (chimeric). Similar to bwa mem -M option.

 

 

引用

SAMBLASTER: fast duplicate marking and structural variant read extraction

Gregory G. Faust1 and Ira M. Hall1,2,*

Bioinformatics. 2014 Sep 1; 30(17): 2503–2505.