macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

benchmark

5995WXのマッピング時間のベンチマーク

2023/08/23 グラフ修正 ZEN3世代のTR5995WXがZEN2世代の3990X(PROなら3995WX)からどのくらい性能が向上しているのかを調べるため、fastqのマッピングにかかる時間を比較する簡単なベンチマークを行いました。使用したのは線虫の全ゲノムショートリードシー…

オルソログベンチマークサービス Quest for Orthologs

Orthology Benchmark Service (https://orthology.benchmarkservice.org)は、Quest for Orthologsコンソーシアムによってサポート・維持されている、orthology inference 評価のゴールドスタンダードである。これは、標準的なデータセットと共通の手順で、既…

M1 MAX Mac Studioのベンチマーク(マッピング時間)

2022/07/07 誤字修正 先月初めに注文したMac Studioが届きました(補足*1)。購入したのは、M1 MAX の24コアGPU、32GBメモリ、512GB SSDモデルです。事務用マシンとして購入しました(時々スクリプトを書いたり簡単なシェルコマンドを実行するくらい)。おさ…

M1 macbook airのベンチマーク(マッピング時間)

2022/03/21 誤字修正 アップルの開発したM1チップのCPUは、高性能な4コアと、性能は控えめですが省電力な4コアの合計8コアからなるbig.LITTLEライクなヘテロジニアスCPUです。ハイパースレッディング技術はないため、OS側から合計8つのコアとして認識さ…

Nextflowを使ってバイオインフォマティクスのツールを動かす

2021 5/5 コードのsamtoolsへパイプする部分でWSLのランがエラーになったため、改行を除去 2021 5/9 画像追加 Nextflowなどのworkflow managerを使って解析パイプラインを記述しておくことで、再現性のある解析が可能になります。午後の空き時間を使って簡単…

大きなファイルを書き出すために必要な時間

2021 1/21, 1/30 文章修正 HTSのシークエンシングリードのデータ解析では、巨大なテキストファイルを読み込み、何らかの計算を行なって結果をファイル保存します。これを繰り返して最終的に生物学的な洞察に繋げるわけですが、この繰り返しで、大きなファイ…

ZEN3世代の5950xのベンチマーク

2021 1/4. 1/5 文章修正 あけましておめでとうございます。今年もよろしくお願いします。新年1回目は、年末に購入したZEN3世代CPUの5950xとZEN2世代のRyzenやThreadRipperのWGSデータのマッピングタイムを比較した結果を紹介します。 5950xを購入した動機(*…

3990xの計算機でprokka を並列ランする(ベンチマーク)

2020 9/17、9/20 文章修正 3990x(64コア)のような多くのCPUコアが利用できるプロセッサを積んだ計算機を使いこなすには、高度に並列化された計算が欠かせない。しかし並列化は技術的に可能なケースと不可能なケースが存在する。並列化が捗りそうなHigh-Thr…

Bwa-mem2

2020 7/19 benchmark追記、一部修正 2020 10/15 condaインストール追記 Bwa-mem2はbwaのbwa-memアルゴリズムのネクストバージョンである。bwaと同じアラインメントを生成し、データセット、実行中のマシンに依存して~1.3~3.1倍高速になる。オリジナルのbwa…

コマンドの平均実行時間を計測するRustのコマンド hyperfine

2020 5/13 コマンド追記、タイトル修正 2020 6/27 タイトル再修正 hyperfineはRustのベンチマークツール。コマンドを自動で複数回実行し、結果をまとめてくれる。 インストール GIthub cargoで導入できる(cargo導入)。 cargo install hyperfine > hyperfin…

グラフィカルなリソース監視ツール Netdata

2020 5/8 説明追加 Netdata は、システムやアプリケーションのパフォーマンスをリアルタイムで監視する監視エージェントである。Netdata を使うと、非常にインタラクティブな Web ダッシュボードを使用して、実行中のシステム (Web サーバ、データベース、ア…

計算リソースを効率的に使って多数のよく似たバクテリアゲノムを素早く分析する自動化されたパイプライン Bactopia

2020 3/17 パラメータ追記、コマンド修正、タイトル修正 2020 3/18 追記 2020 5/11 説明追加 2020 8/13 論文追記 2020 12/9 ツイート追加 2021 2/24アップデートされたコマンドに修正 2021 10/7 ツイート追加 イルミナのテクノロジーを使用した細菌ゲノムの…

GuppyのGPU版を使う

2020/07/23 モニターコマンド追記 2021/01/8 helpのバージョン更新 2021/08/22 更新 2022/1/7 v6に更新(helpはv4) 2022/02/16 helpをv6に更新 タイトルの通り、GuppyのGPU版を使うまでの流れをまとめておきます。 ubuntuへのインストール 1、Nvidia GPU d…

ベンチマーク(2019)

2020 2/10 追記 2020 3/15 文章修正 2020 9/13 誤字修正 最近はZEN世代のCPUが高いパフォーマンスを出している。しかし、公開されている情報の多くはCPUの基礎的な特性を示すベンチマークだったり、ゲーミングや映像編集など需要が高い分野に限定されており…

教育にも利用できる、何百ものバイオインフォマティクスツールが入った包括的コンテナ環境 ORCA

2019 4/25 誤字修正 効果的なバイオインフォマティクス分析のための適切なプラットフォームを設定することは困難な場合がある。標準のソフトウェアパッケージをインストールするために必要な依存関係とバージョン要件を決定することは、分析を始める前の障壁…

ONTのロングリードを自動でアセンブリして公開し、比較できるツール poreTally

ナノポアシークエンシングは、エラーが発生しやすいクオリティが一貫したロングリードを生成する第3世代のシークエンシング方法である。簡単に言うと、DNAまたはRNA鎖がタンパク質の細孔を通って引っ張られ、細孔を介して電気抵抗に影響を与えこれが記録され…

SPAdesとUnicyclerでlarge k-merを使う part2 (SPAdesのテスト)

2019 12/8 誤字修正 127以上のk-merを使うために、SPAdesとUnicyclerをビルドし直した(リンク)。今回は、実際に127以上のk-mer値でアセンブリを行い、アセンブリ性能がどのように変化するか簡単にテストした結果を書く。 Real dataの傾向が知りたいので、G…

大きなk-merも使うde Bruijn graph のアセンブリツール SKESA

2019 4/12 dockerリンク追加 NGSデータを分析するためのシーケンスアライメント、アセンブリ、変異検出、またはそれらのいくつかの組み合わせは、通常、バイオインフォマティクスパイプラインの主要なモジュールである[論文より ref.1,2,3,4,5,6]。微生物ゲ…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

NGSデータ解析マシンのスペックによるデータ解析時間の違い

あけましておめでとうございます。今年もよろしくお願いします。 NGSのデータ解析で時折聞かれるのが、解析マシンのスペックはどれくらいあれば十分かというような質問である。一般的にはメモリリッチで、I/Oが高速で、CPUのマルチスレッドに対応したマシン…