macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Compression / decompression

複数の似たリファレンスが利用できるデータのアライメント作業を高速化するCompMap

種によって利用できるリファンレスの数は大きく異なる。例えばアウトブレイクした菌種を同定するために、1つのfastqデータをたくさんのリファンレスにアライメントするような作業を行う場合、リファレンスが数百ー数万も利用できると、アライメント作業が計…

並列化に対応したリファレンスベースのfastq圧縮ツール LW-FQZip2

fastqの圧縮の方法論にはいくつか種類があるが、その内の1つリファレンスベースの圧縮ツールは、シーケンスデータをそのまま圧縮するのではなく、リファンレスとの位置合わせ結果を記録する方法論である。そのために、リファレンスにリードをアライメントし…

454とSOLIDのfastqで高いロスレス圧縮を行う LFQC

高い圧縮率を示すfastqの圧縮ツール。圧縮率が高いだけあって時間はかかるが、1/10ほどのサイズの圧縮ファイルを作ることができる(ロスレス)。 インストール cent OSに導入した。 環境 Unix system with at least 4gb of RAM (preferably 8) Ruby 本体 Git…

ゲノムデータの圧縮を行うGeCo

GeCoはゲノム(fasta)の圧縮ツール。高効率な圧縮を行うことができる(ロスレスかどうかは不明)。 公式サイト http://bioinformatics.ua.pt/software/geco/ インストール 本体 Github https://github.com/pratas/geco ダウンロードしてビルドする。 brew i…

検索可能な圧縮を行う BEETL

多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…

高速で高効率なfastqの圧縮ツール DSRC

DSRCはマルチスレッドに対応したfastq(ABI SOLiD, and 454/Ion Torrent)の圧縮ツール。gzipやbzipなどの汎用的な圧縮ツールと比較して15~60%高効率とされる。圧縮・解凍速度も極めて速く、8スレッドで500MB/s出るとされる。 インストール binaryのダウンロ…