macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

検索可能な圧縮を行う BEETL

 

多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fastaなどをBurrows Wheeler 変換して検索可能な圧縮ファイルを作成する。オーサーはいずれもイルミナの研究者となっている(論文発表時点)。

 

インストール

Github

https://github.com/BEETL/BEETL/blob/RELEASE_1_1_0/doc/BEETL.md

brewでcent OSに導入した。

 

実行方法

FASTABWT

beetl-bwt -i input.fasta -o myBWT --output-format=ascii

#FASTAに戻す
beetl-unbwt -i myBWT -o output.fasta

 

fastq ⇄ BWTと塩基の検索

beetl-bwt -i input.fastq -o bwt --generate-end-pos-file
beetl-index -i bwt #index

 

k-mer検索

beetl-search -i bwt -k ACGT -o searchedKmers.bwtIntervals

 

 

他にもエラーコレクションのコマンドなどが公開されています。詳しくはGithubのページで確認してください。

 

 

引用

BEETL-fastq: a searchable compressed archive for DNA reads

Janin L, Schulz-Trieglaff O, Cox AJ

Bioinformatics. 2014 Oct;30(19):2796-801

 

Burrows Wheeler 変換

http://bugrammer.hateblo.jp/entry/2016/04/21/182259