多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fastaなどをBurrows Wheeler 変換して検索可能な圧縮ファイルを作成する。オーサーはいずれもイルミナの研究者となっている(論文発表時点)。
インストール
https://github.com/BEETL/BEETL/blob/RELEASE_1_1_0/doc/BEETL.md
brewでcent OSに導入した。
実行方法
beetl-bwt -i input.fasta -o myBWT --output-format=ascii
#FASTAに戻す
beetl-unbwt -i myBWT -o output.fasta
fastq ⇄ BWTと塩基の検索
beetl-bwt -i input.fastq -o bwt --generate-end-pos-file
beetl-index -i bwt #index
k-mer検索
beetl-search -i bwt -k ACGT -o searchedKmers.bwtIntervals
他にもエラーコレクションのコマンドなどが公開されています。詳しくはGithubのページで確認してください。
引用
BEETL-fastq: a searchable compressed archive for DNA reads
Janin L, Schulz-Trieglaff O, Cox AJ
Bioinformatics. 2014 Oct;30(19):2796-801
Burrows Wheeler 変換