macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Compression / decompression

genozipのバージョン15アップデートで追加されたdeepモード

2023/07/01追記 2023/07/09 論文引用 BAM/SAM/CRAM、VCF、FASTQ、GFF3を効率的に圧縮するgenozipのバージョン15アップデートが公開されています。バージョン15ではdeepモードが追加されました(Genozip Deepと呼ばれる)。このBAMとFASTQの間に内在する情報…

大規模なタンパク質構造セットを効率的に圧縮する Foldcomp

高精度なタンパク質構造予測により、数億個のタンパク質構造が生成されているが、これらは保存と処理の点で課題がある。本著者らは、この課題に対処するために、新しい非可逆構造圧縮アルゴリズムと索引付けシステムであるFoldcompを発表する。Foldcompは、…

BAM/SAM/CRAM、VCF、FASTQ、GFF3の効率的な圧縮器 genozipのバージョン14アップデート

2022/12/05, 06 HP更新 Genozip は、広く利用されている FASTQ、BAM、VCF ファイル形式を含む、幅広いゲノムデータの圧縮を行う。ここでは、BAMおよびCRAMファイルの圧縮に焦点を当てた、Genozip技術の最新の進歩を紹介する。様々な種類の研究(全ゲノムシー…

アセンブルされたゲノムをコンパクトに表現する AGC

高品質の配列アセンブリは、個体の完全な遺伝情報を表現する究極の手段である。現在進行中のいくつかのパンゲノムプロジェクトでは、様々な種の高品質なアセンブリのコレクションが作成されている。ここでは、配列決定されたゲノムを2-3桁小さい空間で表現し…

ロングリードを高効率に圧縮する CoLoRd

今日のゲノム研究において、シーケンサー実験によって毎年生み出されるエクサバイト級のデータを維持するためのコストが大きな問題となっている。第三世代シーケンサーの普及にもかかわらず、ロングリードを圧縮する既存のアルゴリズムは、汎用のgzipに対し…

ABRIDGE

技術の進歩により、シークエンシングマシンは膨大な量の遺伝子データを生成するようになり、ストレージの需要が増加している。多くのゲノム解析ソフトウエアは、リードアライメントをトランスクリプトームアセンブリや遺伝子数推定などの目的で利用している…

(prototype)gzipで圧縮された大きなファイルを並列解凍する pugz

gzip プログラムで作成したファイルを任意の場所で解凍することは、 DEFLATE 圧縮アルゴリズム(wiki)の性質上、原理的に不可能である。そのため、既存のプログラムでは、並列性を利用してgzipで圧縮された大きなファイルを高速に解凍することができない。…

リファレンスベースのNANOpore FASTQの圧縮器 RENANO

ナノポア・シーケンシング技術は、短時間で大量のゲノムデータを生成できることもあり、急速に普及している(72時間以内に最大8.5TBのデータを生成)。送信や保存のコストを削減するためには、この種のデータに対する効率的な圧縮方法が必要である。ショート…

効率的なゲノムファイル(FASTQ、SAM/BAM/CRAM、VCF、GVF、FASTA、PHYLIP、23andMe)の圧縮器 Genozip

2021 7/20 DocumentaitonのURL修正 2021 10/9 コマンド追記 2021 11/9 追記 ゲノムデータのための汎用的で機能が充実した圧縮ソフトウェアであるGenozipを紹介する。Genozipは、汎用性(一般的なゲノムファイル形式をすべてサポート)、高圧縮率、高速性、機…

vcf/bcfから必要なフィールドだけ問い合わせる bcftoolsのqueryコマンド

2020 10/14 タイトル変更 manual http://samtools.github.io/bcftools/bcftools.html BCFtools HowTo Extracting information from VCFs bcftoolsのインストール Github #bioconda (link)conda install -c bioconda -y bcftools > bcftools # bcftools Progr…

効率的なVCFの圧縮器と関連ツールを提供する genozip

大規模なゲノムプロジェクトはますます一般的になりつつあり、その結果、数千もの個々のゲノムデータセットからなるVCF(Variant Call Format; (Danecek et al., 2011))ファイルが作成される。圧縮された形式であっても、このようなファイルは非常に大きく(…

高速かつ高効率にシーケンスデータを圧縮 / 解凍する NAF

2019 3/9 twitterコメント追記 Preprintより DNA配列データベースは、シーケンシング技術の継続的な進歩により、指数関数的に成長している。通常、データ圧縮は保存スペースを節約するためにすべての保存DNAシーケンシングデータに使用される。1993年に最初…

FASTQの圧縮/解凍を行う Spring

過去数年間に生産されたゲノムデータの量は、主に高スループットシーケンシング(HTS)技術の向上とゲノムのシーケンシングコストの削減によって大幅に増加した。ヒトに対する単一のゲノムシーケンシング実験は、典型的には数億のショートリード(長さ100〜1…

WIGファイルの圧縮と解凍を行う smallWig

NGSのシークエンシング技術の発達により、DNA / RNAのシーケンスと発現解析のコストが劇的に減少した。 RNA-seqは、様々な種および生物、ならびに異なる器官および細胞集団の全トランスクリプトーム情報を提供する、重要かつ安価な技術になった。RNA-seq実験…

複数の似たリファレンスが利用できるデータのアライメント作業を高速化するCompMap

種によって利用できるリファンレスの数は大きく異なる。例えばアウトブレイクした菌種を同定するために、1つのfastqデータをたくさんのリファンレスにアライメントするような作業を行う場合、リファレンスが数百ー数万も利用できると、アライメント作業が計…

並列化に対応したリファレンスベースのfastq圧縮ツール LW-FQZip2

fastqの圧縮の方法論にはいくつか種類があるが、その内の1つリファレンスベースの圧縮ツールは、シーケンスデータをそのまま圧縮するのではなく、リファンレスとの位置合わせ結果を記録する方法論である。そのために、リファレンスにリードをアライメントし…

454とSOLIDのfastqで高いロスレス圧縮を行う LFQC

高い圧縮率を示すfastqの圧縮ツール。圧縮率が高いだけあって時間はかかるが、1/10ほどのサイズの圧縮ファイルを作ることができる(ロスレス)。 インストール cent OSに導入した。 環境 Unix system with at least 4gb of RAM (preferably 8) Ruby 本体 Git…

ゲノムデータの圧縮を行うGeCo

GeCoはゲノム(fasta)の圧縮ツール。高効率な圧縮を行うことができる(ロスレスかどうかは不明)。 公式サイト http://bioinformatics.ua.pt/software/geco/ インストール 本体 Github https://github.com/pratas/geco ダウンロードしてビルドする。 brew i…

検索可能な圧縮を行う BEETL

多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…