2021-02-18

CRAM、VCF、GVF、FASTA、PHYLIP、23andMe）の圧縮器 Genozip

2021 7/20 DocumentaitonのURL修正

2021 10/9 コマンド追記

2021 11/9 追記

　ゲノムデータのための汎用的で機能が充実した圧縮ソフトウェアであるGenozipを紹介する。Genozipは、汎用性（一般的なゲノムファイル形式をすべてサポート）、高圧縮率、高速性、機能性、拡張性の5つのコア機能を提供することで、ゲノム圧縮のための汎用ソフトウェアおよび開発フレームワークとして設計されている。

　Genozipは、FASTQ、SAM/BAM/CRAM、VCF、GVF、FASTA、PHYLIP、23andMeフォーマットなど、ゲノム研究で広く使われているゲノムデータフォーマットに対応した高性能圧縮を提供する。テスト結果は、Genozipが高速で、ファイルがすでに圧縮されている場合でも、大幅に改善された圧縮率を達成していることを示している。

　さらに、Genozipは、ファイルフォーマットに特化したセグメンタやデータタイプに特化したコーデックからGenozipフレームワークを分離して設計されている。これにより、Genozipは、研究者が将来的に追加のファイルフォーマットや、ファイル内のデータタイプやフィールドのための新しいコーデックのための圧縮を実装できる汎用圧縮プラットフォームになることを目指している。これにより、最終的には、ユーザーコミュニティによるこれらのアルゴリズムの認知度と採用率が向上し、この分野でのさらなる技術革新が加速することを期待している。

　GenozipはC言語で書かれている。コードはオープンソースで、GitHub (https://github.com/divonlan/genozip)で公開されている。このパッケージは非商用利用の場合は無料である。DockerHub上のDockerコンテナとして、またcondaパッケージマネージャを通じて配布されている。GenozipはLinux、Mac、Windowsでテストされている。

Documentaiton

https://genozip.readthedocs.io

Genozipはゲノムファイル用の圧縮機でFASTQ、SAM/BAM/CRAM、VCF/BCF、FASTA、GVF、Phylip、23andMeファイルを圧縮するように最適化されているが、ゲノムファイルだけでなく、あらゆるファイルを圧縮できる。すでに .gz .bz2 .xz で圧縮されている場合も圧縮できる。
圧縮率は圧縮されるデータに依存する。通常、.bam を圧縮する場合は 1.5～3 倍、.fastq.gz ファイル (つまり既に圧縮されているファイルを圧縮する場合) では 2～5 倍、GT データのみを含む非圧縮の高サンプルカウント .vcf ファイルを圧縮する場合は最大 200 倍の圧縮率が期待できる。
圧縮はロスレスで、解凍されたファイルは元のファイルと100%同じ。厳密なロスレス化の例外は --optimize オプションを使用した場合。
元のファイルが BGZF で圧縮されていた場合、genounzip は解凍時に BGZF でファイルを再圧縮する(--plain が指定されていない時)。しかし、使用されているライブラリが異なるために、全く同じ BGZF 圧縮はできないことがある。

f:id:kazumaxneo:20210218233123p:plain

マニュアルより

2021 7/3

Genozip v12のリリース。圧縮・解析機能の段階的な向上（RELEASE NOTES参照）に加えて、2つの大きな機能が追加された。１つ目はDual coordinate VCFのサポート。Dual coordinate VCF（link）は、例えばGRCh37とGRCh38のように、2つの座標系の座標を同時に含むVCFファイル。２つ目は、 kraken2を使ったBAMファイルのspeciesフィルタリング機能。バクテリアのリードを直接特定することで、ヒトゲノムデータからバクテリアの汚染をフィルタリングすることができる（詳細）。この機能はBAMファイル（FASTQだけではない）で動作するので、解析のどの時点でも使用することができる。

11/9

new benchmarks of Genozip

https://genozip.readthedocs.io/benchmarks.html

インストール

ソースからのビルド推奨。（12.08はsegmentation errrorを起こしたので12.07をソースからビルド）

#Form github
git clone https://github.com/divonlan/genozip
make
requires: gcc or clang, make

#conda、ここでは高速なmambaを使う
mamba install -c conda-forge genozip -y

> genozip

$ genozip

Compress genomics files. Genozip can compress any file, but is optimally designed to compress the following file types:

VCF/BCF, SAM/BAM/CRAM, FASTQ, FASTA, GVF and 23andMe

Usage: genozip [options]... [files or urls]...

One or more file names or URLs may be given, or if omitted, standard input is used instead

Supported input file types, as recognized by their listed filename extension(s):

FASTA: fasta, fa, faa, ffn, fnn, fna (possibly .gz .bgz .bz2 .xz)

FASTQ: fastq, fq (possibly .gz .bgz .bz2 .xz)

SAM: sam (possibly .gz .bgz .bz2 .xz)

BAM: bam

CRAM: cram

VCF: vcf (possibly .gz .bgz .bz2 .xz)

BCF: bcf (possibly .gz .bgz)

GVF: gvf (possibly .gz .bgz .bz2 .xz)

23andMe: genome*Full*.txt (possibly zip)

Generic: any other file (possibly .gz .bgz .bz2 .xz)

Note: for comressing .bcf, .cram or .xz files requires bcftools, samtools or xz, respectively, to be installed, as does using --index

Examples: genozip sample.bam

genozip sample.R1.fq.gz sample.R2.fq.gz --pair --reference hg19.ref.genozip -o sample.genozip genozip --optimize -password 12345 ftp://ftp.ncbi.nlm.nih.gov/file2.vcf.gz