2023/07/01追記
2023/07/09 論文引用
BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報の冗長性を利用することで、BAMとFASTQを共圧縮します。以前からbamとfq.gzそれぞれgenozipでさらに高効率に圧縮することができましたが、このdeepモードでの共圧縮では、genozipの単独圧縮と比べておよそ2倍効率的に圧縮出来るとされています(出力は1つのファイルに固められる)。試してみます。
図はHPより転載。紫がdeepモード。
Pricing
https://www.genozip.com/get-genozip
アカデミアの基礎研究に従事している場合、無料で使用できる。アカデミアでも商用目的だったり営利企業での使用は有料になっている。その代わりに会社からのサポートを受けることができる。
インストール
以前の記事を参照。
#conda(link)、ここでは高速なmambaを使う
mamba install -c conda-forge genozip=15 -y
#HP(link)から実行形式ファイルをダウンロードすることもできる
> genozip -V
version=15.0.5 distribution=conda
初回実行時は機関のメールアドレスなどを登録する。
実行方法
fastq.gzとbam、リファレンスのfasta.gzを指定する。
genozip --deep file-R1.fq.gz file-R2.fq.gz file.bam --reference hg19.fa.gz
=> file.bam.genozipが生じる。
#解凍
genozip file.bam.genozip
=> file.bamとfile-R1.fq.gz、file-R2.fq.gzが生じる。
まずhg19.fa.gzがgenozip形式に圧縮され、それからfile.bam.genozipが出力される。
コメント
細菌のfastq.gzとbam、リファレンスの組み合わせでdeepモードを試してみました。bamファイルのサイズが120MB、fastq.gzファイルのサイズが80MBx2、リファレンスが5Mbという組み合わせに対し、genozip deepで圧縮後は60MBまで小さくなりました。解凍すると、再びfastq.gzx2とbamが出来ます。ヒト以外のリファレンスでも効率は変わらないそうです。
研究がひと段落したシークエンシングデータを保存し続ける場合、bamは捨ててfastq.gzだけ保存することも良くあるかもしれません。しかしgenozip deepモードを使えばファイルサイズはfastq.gz単独より遥かに小さくできるにも関わらず、bamも含めることができ、大きなアドバンテージになります。
この新しいモードはDivonさんに教えていただきました。ありがとうございました。
2023/07/01追記
deepモードで圧縮・解凍後、元のfastq.gzと処理後のfastq.gzのchecksumのハッシュ値が一致しなかったので、わずかにbitが変わる可能性があるのか質問しました(処理前後でリード数、リード長は完全に一致していた)。以下、Divonさんからの回答です。=>
"genozip解凍後の.gz再圧縮では違いがあるかもしれない。それは、多くのgzipライブラリが存在し、それぞれが多くのオプションを持っているためです。genounzip --bgzf=exact オプションを試してみてください。gz 圧縮のパラメータを推測し、可能であれば全く同じものを gz 再圧縮しようとします。zcat file.fq.gz | md5sumで生のfastqをチェックしてみてください"
とのお返事をいただきました。実際その通りで、生のfastqだと処理前後でハッシュ値は完全一致しました。
シークエンシングデータの保管コストはファイルサイズに比例するので、たくさんのデータを保持している方ほど圧縮アルゴリズムから受けられる恩恵は大きくなります。使ってみてください(商用や営利企業での使用ならそれ向けのライセンスを取得する必要があります。ご注意を)。
引用
Tool:Launched: Genozip 15 with co-compression of BAM and FASTQ
https://www.biostars.org/p/9567908/
2023/07/08
Deep FASTQ and BAM co-compression in Genozip 15
Divon Mordechai Lan, Daniel S.T. Hughes, Bastien Llamas
bioRxiv, Posted July 07, 2023