McDevol

メタゲノム・ビニングのための最近の深層学習手法のいくつかは、高品質なメタゲノムアセンブリゲノムの回収率向上を主張している。これらの手法は、contig embeddings（コンティグの主要な特徴量を固定次元のベクトルに変換する操作を行ったもの）を学習しク…

2025-01-18

GPUによる高速相同性検索に対応した MMseqs2

2024 高速なツール GPU protein search Preprint benchmark

急速に増加するタンパク質配列データベースの進化情報を検索するには、常に高速化が必要である。これは、配列のフィルタリングやギャップアラインメントを実行する革新的なアルゴリズムによって達成される。ここでは、8GPUで最大100TCUPSを達成するギャップ…

2023-08-24

5995WXのマッピング時間のベンチマーク

benchmark

2023/08/23 グラフ修正 ZEN3世代のTR5995WXがZEN2世代の3990X（PROなら3995WX）からどのくらい性能が向上しているのかを調べるため、fastqのマッピングにかかる時間を比較する簡単なベンチマークを行いました。使用したのは線虫の全ゲノムショートリードシー…

2023-07-03

オルソログベンチマークサービス Quest for Orthologs

web tool evaluation tool 2022 Nucleic Acids Research database orthologue benchmark

Orthology Benchmark Service (https://orthology.benchmarkservice.org)は、Quest for Orthologsコンソーシアムによってサポート・維持されている、orthology inference 評価のゴールドスタンダードである。これは、標準的なデータセットと共通の手順で、既…

2022-07-07

M1 MAX Mac Studioのベンチマーク（マッピング時間）

benchmark

2022/07/07 誤字修正先月初めに注文したMac Studioが届きました（補足*1）。購入したのは、M1 MAX の24コアGPU、32GBメモリ、512GB SSDモデルです。事務用マシンとして購入しました（時々スクリプトを書いたり簡単なシェルコマンドを実行するくらい）。おさ…

2022-03-20

M1 macbook airのベンチマーク（マッピング時間）

benchmark

2022/03/21 誤字修正アップルの開発したM1チップのCPUは、高性能な４コアと、性能は控えめですが省電力な４コアの合計８コアからなるbig.LITTLEライクなヘテロジニアスCPUです。ハイパースレッディング技術はないため、OS側から合計８つのコアとして認識さ…

2021-05-03

Nextflowを使ってバイオインフォマティクスのツールを動かす

nextflow 2017 Nature Biotechnology tips 高速なツール workflow manager benchmark

2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…

2021-01-21

大きなファイルを書き出すために必要な時間

benchmark tips

2021 1/21, 1/30 文章修正 HTSのシークエンシングリードのデータ解析では、巨大なテキストファイルを読み込み、何らかの計算を行なって結果をファイル保存します。これを繰り返して最終的に生物学的な洞察に繋げるわけですが、この繰り返しで、大きなファイ…

2021-01-04

ZEN3世代の5950xのベンチマーク

benchmark

2021 1/4. 1/5 文章修正あけましておめでとうございます。今年もよろしくお願いします。新年１回目は、年末に購入したZEN3世代CPUの5950xとZEN2世代のRyzenやThreadRipperのWGSデータのマッピングタイムを比較した結果を紹介します。 5950xを購入した動機(*…

2020-09-17

3990xの計算機でprokka を並列ランする(ベンチマーク)

benchmark tips

2020 9/17、9/20 文章修正 3990x（64コア）のような多くのCPUコアが利用できるプロセッサを積んだ計算機を使いこなすには、高度に並列化された計算が欠かせない。しかし並列化は技術的に可能なケースと不可能なケースが存在する。並列化が捗りそうなHigh-Thr…

2020-07-17

Bwa-mem2

高速なツール mapping benchmark

2020 7/19 benchmark追記、一部修正 2020 10/15 condaインストール追記 2024/05/09 追記 Bwa-mem2はbwaのbwa-memアルゴリズムのネクストバージョンである。bwaと同じアラインメントを生成し、データセット、実行中のマシンに依存して～1.3～3.1倍高速になる…

2020-06-12

コマンドの平均実行時間を計測するRustのコマンド hyperfine

benchmark tips Rust

2020 5/13 コマンド追記、タイトル修正 2020 6/27 タイトル再修正 hyperfineはRustのベンチマークツール。コマンドを自動で複数回実行し、結果をまとめてくれる。インストール GIthub cargoで導入できる（cargo導入）。 cargo install hyperfine > hyperfin…

2020-05-08

グラフィカルなリソース監視ツール Netdata

tips インフォマティクス解析をサポートするツール benchmark web tool resource monitor

2020 5/8 説明追加 Netdata は、システムやアプリケーションのパフォーマンスをリアルタイムで監視する監視エージェントである。Netdata を使うと、非常にインタラクティブな Web ダッシュボードを使用して、実行中のシステム (Web サーバ、データベース、ア…

2020-03-17

計算リソースを効率的に使って多数のよく似たバクテリアゲノムを素早く分析する自動化されたパイプライン Bactopia

2020 3/17 パラメータ追記、コマンド修正、タイトル修正 2020 3/18 追記 2020 5/11 説明追加 2020 8/13 論文追記 2020 12/9 ツイート追加 2021 2/24アップデートされたコマンドに修正 2021 10/7 ツイート追加イルミナのテクノロジーを使用した細菌ゲノムの…

2020-01-19

GuppyのGPU版を使う

GPU basecaller benchmark Nanopore long read

2020/07/23 モニターコマンド追記 2021/01/8 helpのバージョン更新 2021/08/22 更新 2022/1/7 v6に更新（helpはv4） 2022/02/16 helpをv6に更新タイトルの通り、GuppyのGPU版を使うまでの流れをまとめておきます。 ubuntuへのインストール１、Nvidia GPU d…

2020-01-12

ベンチマーク（2019）

benchmark

2020 2/10 追記 2020 3/15 文章修正 2020 9/13 誤字修正最近はZEN世代のCPUが高いパフォーマンスを出している。しかし、公開されている情報の多くはCPUの基礎的な特性を示すベンチマークだったり、ゲーミングや映像編集など需要が高い分野に限定されており…

2019-04-25

教育にも利用できる、何百ものバイオインフォマティクスツールが入った包括的コンテナ環境 ORCA

2019 Bioinformatics docker インフォマティクス解析をサポートするツール education windowsツール benchmark conda

2019 4/25 誤字修正効果的なバイオインフォマティクス分析のための適切なプラットフォームを設定することは困難な場合がある。標準のソフトウェアパッケージをインストールするために必要な依存関係とバージョン要件を決定することは、分析を始める前の障壁…

2019-01-15

ONTのロングリードを自動でアセンブリして公開し、比較できるツール poreTally

2018 Preprint Nanopore long read assembly automatic pipeline Bioinformatics evaluation tool benchmark polish

ナノポアシークエンシングは、エラーが発生しやすいクオリティが一貫したロングリードを生成する第3世代のシークエンシング方法である。簡単に言うと、DNAまたはRNA鎖がタンパク質の細孔を通って引っ張られ、細孔を介して電気抵抗に影響を与えこれが記録され…

2018-12-18

SPAdesとUnicyclerでlarge k-merを使う part2 (SPAdesのテスト)

benchmark assembly tips

2019 12/8 誤字修正 127以上のk-merを使うために、SPAdesとUnicyclerをビルドし直した（リンク）。今回は、実際に127以上のk-mer値でアセンブリを行い、アセンブリ性能がどのように変化するか簡単にテストした結果を書く。 Real dataの傾向が知りたいので、G…

2018-10-25

大きなk-merも使うde Bruijn graph のアセンブリツール SKESA

2018 Genome Biology assembly k-mer 高速なツール benchmark docker

2019 4/12 dockerリンク追加 NGSデータを分析するためのシーケンスアライメント、アセンブリ、変異検出、またはそれらのいくつかの組み合わせは、通常、バイオインフォマティクスパイプラインの主要なモジュールである[論文より ref.1,2,3,4,5,6]。微生物ゲ…

2018-08-26

review article要約　バクテリアのバリアントコール評価のベストプラクティス

2015 assembly bacteria small indel simulator review SNV error correction duplication evaluation tool benchmark

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

2018-01-02

NGSデータ解析マシンのスペックによるデータ解析時間の違い

benchmark other

あけましておめでとうございます。今年もよろしくお願いします。 NGSのデータ解析で時折聞かれるのが、解析マシンのスペックはどれくらいあれば十分かというような質問である。一般的にはメモリリッチで、I/Oが高速で、CPUのマルチスレッドに対応したマシン…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

benchmark

McDevol

GPUによる高速相同性検索に対応した MMseqs2

5995WXのマッピング時間のベンチマーク

オルソログベンチマークサービス Quest for Orthologs

M1 MAX Mac Studioのベンチマーク（マッピング時間）

M1 macbook airのベンチマーク（マッピング時間）

Nextflowを使ってバイオインフォマティクスのツールを動かす

大きなファイルを書き出すために必要な時間

ZEN3世代の5950xのベンチマーク

3990xの計算機でprokka を並列ランする(ベンチマーク)

Bwa-mem2

コマンドの平均実行時間を計測するRustのコマンド hyperfine

グラフィカルなリソース監視ツール Netdata

計算リソースを効率的に使って多数のよく似たバクテリアゲノムを素早く分析する自動化されたパイプライン Bactopia

GuppyのGPU版を使う

ベンチマーク（2019）

教育にも利用できる、何百ものバイオインフォマティクスツールが入った包括的コンテナ環境 ORCA

ONTのロングリードを自動でアセンブリして公開し、比較できるツール poreTally

SPAdesとUnicyclerでlarge k-merを使う part2 (SPAdesのテスト)

大きなk-merも使うde Bruijn graph のアセンブリツール SKESA

review article要約　バクテリアのバリアントコール評価のベストプラクティス

NGSデータ解析マシンのスペックによるデータ解析時間の違い