Compression / decompression
2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報…
高精度なタンパク質構造予測により、数億個のタンパク質構造が生成されているが、これらは保存と処理の点で課題がある。本著者らは、この課題に対処するために、新しい非可逆構造圧縮アルゴリズムと索引付けシステムであるFoldcompを発表する。Foldcompは、…
2022/12/05, 06 HP更新 Genozip は、広く利用されている FASTQ、BAM、VCF ファイル形式を含む、幅広いゲノムデータの圧縮を行う。ここでは、BAMおよびCRAMファイルの圧縮に焦点を当てた、Genozip技術の最新の進歩を紹介する。様々な種類の研究(全ゲノムシー…
高品質の配列アセンブリは、個体の完全な遺伝情報を表現する究極の手段である。現在進行中のいくつかのパンゲノムプロジェクトでは、様々な種の高品質なアセンブリのコレクションが作成されている。ここでは、配列決定されたゲノムを2-3桁小さい空間で表現し…
今日のゲノム研究において、シーケンサー実験によって毎年生み出されるエクサバイト級のデータを維持するためのコストが大きな問題となっている。第三世代シーケンサーの普及にもかかわらず、ロングリードを圧縮する既存のアルゴリズムは、汎用のgzipに対し…
技術の進歩により、シークエンシングマシンは膨大な量の遺伝子データを生成するようになり、ストレージの需要が増加している。多くのゲノム解析ソフトウエアは、リードアライメントをトランスクリプトームアセンブリや遺伝子数推定などの目的で利用している…
gzip プログラムで作成したファイルを任意の場所で解凍することは、 DEFLATE 圧縮アルゴリズム(wiki)の性質上、原理的に不可能である。そのため、既存のプログラムでは、並列性を利用してgzipで圧縮された大きなファイルを高速に解凍することができない。…
ナノポア・シーケンシング技術は、短時間で大量のゲノムデータを生成できることもあり、急速に普及している(72時間以内に最大8.5TBのデータを生成)。送信や保存のコストを削減するためには、この種のデータに対する効率的な圧縮方法が必要である。ショート…
2021 7/20 DocumentaitonのURL修正 2021 10/9 コマンド追記 2021 11/9 追記 ゲノムデータのための汎用的で機能が充実した圧縮ソフトウェアであるGenozipを紹介する。Genozipは、汎用性(一般的なゲノムファイル形式をすべてサポート)、高圧縮率、高速性、機…
2020 10/14 タイトル変更 manual http://samtools.github.io/bcftools/bcftools.html BCFtools HowTo Extracting information from VCFs bcftoolsのインストール Github #bioconda (link)conda install -c bioconda -y bcftools > bcftools # bcftools Progr…
大規模なゲノムプロジェクトはますます一般的になりつつあり、その結果、数千もの個々のゲノムデータセットからなるVCF(Variant Call Format; (Danecek et al., 2011))ファイルが作成される。圧縮された形式であっても、このようなファイルは非常に大きく(…
2019 3/9 twitterコメント追記 Preprintより DNA配列データベースは、シーケンシング技術の継続的な進歩により、指数関数的に成長している。通常、データ圧縮は保存スペースを節約するためにすべての保存DNAシーケンシングデータに使用される。1993年に最初…
過去数年間に生産されたゲノムデータの量は、主に高スループットシーケンシング(HTS)技術の向上とゲノムのシーケンシングコストの削減によって大幅に増加した。ヒトに対する単一のゲノムシーケンシング実験は、典型的には数億のショートリード(長さ100〜1…
NGSのシークエンシング技術の発達により、DNA / RNAのシーケンスと発現解析のコストが劇的に減少した。 RNA-seqは、様々な種および生物、ならびに異なる器官および細胞集団の全トランスクリプトーム情報を提供する、重要かつ安価な技術になった。RNA-seq実験…
種によって利用できるリファンレスの数は大きく異なる。例えばアウトブレイクした菌種を同定するために、1つのfastqデータをたくさんのリファンレスにアライメントするような作業を行う場合、リファレンスが数百ー数万も利用できると、アライメント作業が計…
fastqの圧縮の方法論にはいくつか種類があるが、その内の1つリファレンスベースの圧縮ツールは、シーケンスデータをそのまま圧縮するのではなく、リファンレスとの位置合わせ結果を記録する方法論である。そのために、リファレンスにリードをアライメントし…
高い圧縮率を示すfastqの圧縮ツール。圧縮率が高いだけあって時間はかかるが、1/10ほどのサイズの圧縮ファイルを作ることができる(ロスレス)。 インストール cent OSに導入した。 環境 Unix system with at least 4gb of RAM (preferably 8) Ruby 本体 Git…
GeCoはゲノム(fasta)の圧縮ツール。高効率な圧縮を行うことができる(ロスレスかどうかは不明)。 公式サイト http://bioinformatics.ua.pt/software/geco/ インストール 本体 Github https://github.com/pratas/geco ダウンロードしてビルドする。 brew i…
多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…
DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…