BWA-MEM-SCALE

2022 mapping 高速なツール

2025/05/08 追記 BWA-MEM-SCALEはBWA-MEM2およびBWA-Michをベースに、ゲノム配列アライメントの全ステップにおける性能向上を実現した。Exact Match Filter (EMF)、FM-index Accelerator (FMA)、様々な最適化技術が追加されている。BWA-MEM-SCALEは、利用可…

2025-05-03

ゲノム配列から高精度なab initioの遺伝子構造予測を行う Tiberius

2024 Bioinformatics 高速なツール eukaryotic genome annotation ab initio gene prediction Singularity

25年以上にわたり、学習ベースの真核生物遺伝子予測は、DNA配列を直接入力する隠れマルコフモデル（HMM）によって駆動されてきた。最近、HolstらはHelixerを用いて、深層学習とHMMポストプロセッサーを組み合わせることでab initio真核生物遺伝子予測の精度…

2025-05-03

fastqファイルを迅速かつ効率的に取得する ngsfetch

fasta/fastqの操作 download DRA SRA GEO ENA 高速なツール

ffqとaria2を使ってfastqファイルを取得するためのユーティリティ。大規模なデータセットを迅速かつ効率的にダウンロードできるよう設計されている。GEO、SRA、EMBL-EBIのENA、DDBJのDRAなどのデータのダウンロードに対応している。特徴（レポジトリより） …

2025-05-02

AAIを高速に推定する FastAAI

2025 Nucleic Acids Research AAI 高速なツール all versus all sequence comarison

環境や臨床由来の微生物叢（マイクロバイオーム）を記述するうえで、全ゲノムの類縁性推定および分類学的同定は、重要なバイオインフォマティクスの課題である。種レベルの近縁な微生物やウイルスゲノムの類縁性を推定するためには、ゲノム全体の平均ヌクレ…

2025-03-26

高速かつ低メモリ使用量でメタゲノムプロファイリングやANIサーチを行う sylph

2024 Nature Biotechnology Marine Metagenomics GTDB abundance estimation in metagenomics data 生物種の推定 (taxonomic profiling) ヒト腸内 (human gut) 高速なツール ANI

メタゲノムをデータベースと照合してプロファイリングすることで、アセンブルが不可能な低存在量でも微生物の検出と定量が可能になる。本著者らは、ゼロインフレートポアソンk-mer統計量を用いてゲノム間平均ヌクレオチド同一性（ANI）を推定し、ANIに基づく…

2025-03-04

ロングリードに最適化されたFastp: Fastplong

trimming / preprocessing 高速なツール

Fastplongは、広く使われているツールfastpをベースにロングリードのFASTQデータ前処理に最適化したfastp。Fastp同様にアダプターを自動的に検出する機能を持ち、従来より高速にロングリードの品質チェックとフィルタリングを行うことができる。インストー…

2025-02-24

セントロメアのde novoアノテーションを行う centroAnno

2025 Preprint 高速なツール centromere

2025/02/27 追記正確なセントロメアのアノテーションは、染色体の安定性、遺伝子制御、複雑なゲノム構造を解明するために不可欠である。しかし、既存のアノテーション手法は、予備知識に依存することが多く、多様なゲノム状況への適用には限界がある。本研…

2025-02-19

ProTrek

2024 protein search Preprint Marine Metagenomics PLM eukaryotic genome annotation enzyme function 高速なツール

ProTrekは、配列、構造、自然言語機能(SSF)をシームレスに融合し、先進的なトライモーダル言語モデルにすることで、タンパク質探索を再定義する。対照学習により、ProTrekはタンパク質データと人間の理解とのギャップを埋め、9つのSSFペアワイズモダリティの…

2025-02-14

ショートリードおよびロングリードシーケンスデータのアダプター残存など包括的な品質チェックを行う Sequali

Bioinformatics Advances 2025 結果の視覚化 (visualization) quality check Nanopore long read Pacbio 高速なツール barcode / index

2025/03/19 追記シーケンスデータの品質管理は、多くのシーケンスワークフローの最初のステップである。ショートリードおよびロングリードシーケンス技術には、品質管理に関して多くの共通点がある。品質管理プログラムはいくつか存在するが、両方のテクノ…

2025-01-29

コア遺伝子の立体構造情報を使って正確な系統復元を行う Unicore

2024 Preprint pan-proteome structural aligners NAR Genomics and Bioinformatics 高速なツール phylogenetic marker genes structural core genes GPU

あるクレードのほとんどのメンバーに共通するシングルコピーのコア遺伝子の解析は、系統復元やゲノムの質の評価など、生物学における重要な課題にとって重要である。コア遺伝子は従来、プロテオーム間のアミノ酸類似性の解析によって同定されてきたが、構造…

2025-01-26

超高速でスケーラブルなゲノム検索を行う gsearch

2024 2023 Nucleic Acids Research ANI AAI 高速なツール

ゲノム検索や分類は、データベース（参照ゲノム）に最もマッチするゲノムを見つけることが一般的であるが、利用可能なデータベースゲノムの数が増加していることや、従来の手法が大規模なデータベースに対してうまくスケールしないという事実により、ますま…

2025-01-18

GPUによる高速相同性検索に対応した MMseqs2

2024 高速なツール GPU protein search Preprint benchmark

急速に増加するタンパク質配列データベースの進化情報を検索するには、常に高速化が必要である。これは、配列のフィルタリングやギャップアラインメントを実行する革新的なアルゴリズムによって達成される。ここでは、8GPUで最大100TCUPSを達成するギャップ…

2025-01-13

環状DNA配列の開始位置を指定位置に回転させる Rotate

rotate fasta/fastqの操作高速なツール organelle genome

環状DNA分子（すなわち、ほとんどの細菌、ウイルス、プラスチドゲノム）に由来する配列は、アラインメントを含むほとんどの下流解析において、線状化され、共通の開始位置に回転されることが期待される。これは一般的で簡単な作業であるにもかかわらず、利用…

2024-11-01

高速なトランスクリプトームアノテーションパイプライン TransAnnot

Bioinformatics Advances 2024 de novo transcriptome 高速なツール annotation

2025/02/14 condaインストール追記(conda) 深くシークエンシングされ、de novoアセンブルされたトランスクリプトームのアノテーションは、最新のツールの中には動作が遅く、インストールが難しく、使いにくいものがあるため、依然として難題である。TransAnn…

2024-10-18

ウイルスゲノムの超高速・高精度配列アライメント、ANI計算とクラスタリングを行う vclust

2024 Preprint ANI sequence clustering virus Viromics 高速なツール

Viromicsは毎年数百万個のウイルスゲノムと断片を産生し、従来の配列比較法を圧倒している。Vclustは、Lempel-Ziv構文解析によって平均塩基同一性を決定し、権威ある viral genomics and taxonomy consortiaによって承認された閾値でウイルスゲノムをクラス…

2024-10-11

大規模なゲノム配列セットのANI値を計算する LZ-ANI

2024 Preprint ANI 高速なツール all versus all sequence comarison

LZ-ANIは、大規模なゲノム配列セットの平均ヌクレオチド同一性（ANI）を決定するための、高速でメモリ効率のよいツールである。このツールはLempel-Ziv構文解析を使用し、一致するヌクレオチドと不一致のヌクレオチドを高感度で識別し、ANIの正確な決定を可…

2024-10-10

比較ゲノミクスのための遺伝子座の可視化ツール LoVis4u

2024 bacteria Preprint 結果の視覚化 (visualization) ゲノム比較 (comparative genomics) plasmid phage gene cluster 高速なツール NAR Genomics and Bioinformatics

比較ゲノム解析では、ゲノムの遺伝子座のアラインメントを可視化することがよくある。PythonやRのライブラリからスタンドアローンのGUIまで、このタスクのためにいくつかのソフトウェアツールが利用可能であるが、高速で自動化された使用法と出版可能なベク…

2024-10-08

k-merの起源となる配列を見つける Back to sequences

k-mer 高速なツール fasta/fastqの操作 JOSS 2024

2024/10/09追記生のシーケンスデータの処理に特化したバイオインフォマティクスツールの大部分は、k-mersの概念を多用している。これにより、データの冗長性（ひいてはメモリの圧迫）を減らし、シーケンスエラーを破棄し、操作可能で容易に比較できる固定サ…

2024-06-25

タンパク質構造検索・アライメントアルゴリズム Reseek

2024 Preprint protein search all versus all sequence comarison PDB 高速なツール

アミノ酸配列からのタンパク質フォールド予測における最近のブレークスルーは、新しい構造の洪水を解き放った。タンパク質空間への洞察を広げ、生物工学や治療法への実用化を追求する新たな機会をもたらすと同時に、新たな課題も提示している。それと同時に…

2024-05-31

植物ゲノムのLTRレトロトランスポゾンのアノテーションを行うパイプライン DANTEとDANTE_LTR

Long Terminal Repeat retrotransposons (LTR-RTs) plant 2024 Preprint 高速なツール結果の視覚化 (visualization)

ロングターミナルリピート（LTR）レトロトランスポゾンは、ほとんどの植物種のゲノムにおいて、反復DNAエレメントの主要なクラスである。配列決定された植物ゲノムの数は加速度的に増加しており、植物ゲノムアセンブリ中のLTRレトロトランスポゾンの効率的な…

2024-05-23

大規模なデータセットにもスケールする多目的k-merカウンターおよび多様性推定器 MerCat2

Bioinformatics Advances 2024 高速なツール k-mer fasta/fastqの操作

MerCat2（"Mer-Catenate2"）は、オミックスデータ中のフィーチャーをロバストに解析するための、汎用性、並列性、拡張性、モジュール性を備えたソフトウェアパッケージである。MerCat2は、あらゆるプラットフォームからのHTSシークエンシングの生リード、ア…

2024-05-13

マルチサンプルビニングのための高速な近似カバレッジ計算法 fairy

2024 Preprint 高速なツール Binning (metagenomics)

メタゲノムのビニングは、同じゲノムに属するコンティグをクラスタリングすることであり、メタゲノムアセンブリゲノム（MAG）を復元するための重要なステップである。コンティグは、ゲノム全体で一貫したリードカバレッジパターンを利用することで連結される…

2024-05-03

高速かつ様々なプロファイルに対応可能な、次世代シークエンシングデータの次世代のシミュレーター NGSNGS

2023 高速なツール Ancient DNA simulator Bioinformatics Mate Pair

シークエンシングの世代が変わるにつれてDNAシークエンサーの性能が急速に向上し、生成されるデータ量も増加した。この進化は、新しいバイオインフォマティクスの手法にもつながっており、モデルの精度やゲノム解析パイプラインの頑健性を検証する際に、in s…

2024-04-22

複雑な反復配列を迅速にインタラクティブなドットプロットで可視化する ModDotPlot

Preprint dot plot web tool 結果の視覚化 (visualization) 高速なツール centromere tandem repeats Bioinformatics

ゲノムの反復配列を分析する一般的な方法は、ドットプロットによって可視化された配列類似性マトリックスを作成することである。StainedGlassのような革新的なアプローチは、ドットプロットを配列同一性のヒートマップとしてレンダリングすることにより、こ…

2024-04-20

FastQCの高速な代替 Falco

F1000Research 2019 trimming / preprocessing 高速なツール

品質管理はシーケンスデータ解析において不可欠な最初のステップであり、品質管理のためのソフトウェアツールはほとんどのシーケンスセンターで標準的なパイプラインに深く浸透している。関連する計算は簡単だが、多くの環境では品質管理に必要な総計算量は…

2024-04-06

BinDash 2.0

高速なツール 2024 ANI Preprint

公開データベースに寄託される微生物ゲノムの数が増加しているため、多数のゲノムをゲノム距離という観点から比較することは、ますます困難になってきている。現在では、数百万から数十億のゲノム間のペアワイズ距離を推定する必要がある。このような比較を…

2024-04-01

シンプルなパイルアップベースのバリアントコーラー minipileup

variant 高速なツール

レポジトリより Minipileupはシンプルなパイルアップベースのバリアントコーラーである。リファレンスFASTAと1つまたは複数のアライメントBAMを入力とし、アレルカウントとともにマルチサンプルVCFを出力する。Minipileupは、2012年に実装されたhtsbox pileu…

2024-03-07

ブルームフィルタを用いて低メモリ使用量且つ高速にsamの重複マークを行う streammd

2023 Bioinformatics Bloom filter bam/sam 高速なツール

重複テンプレートの同定は、バルクシークエンシング解析における一般的な前処理ステップである。streammdは、Picard MarkDuplicatesの出力を忠実に再現しながら、大幅に高速化し、SAMBLASTERよりはるかに少ないメモリで動作する。streammdは、GitHub https:/…

2024-03-04

ゲノムからメタコミュニティの幅広いデータに対応したロバストな機能アノテーションを行うツール MetaCerberus

2024 Bioinformatics metagenome metatranscriptome 高速なツール HMM annotation eukaryotic genome annotation

2024/03/5 更新 2024/04/9 追記 2025/05/08 追記 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速…

2024-02-08

細菌・古細菌の高速な比較ゲノムブラウザ Fast.genomics

2023 Preprint gene cluster bacteria archaea web tool 高速なツール系統解析結果の視覚化 (visualization) ゲノム比較 (comparative genomics)

ゲノムシークエンシングにより、細菌や古細菌の驚くべき多様性が明らかになったが、これらのゲノムを横断的に閲覧するための高速で便利なツールは存在しない。原核生物の多様性の中で、目的のタンパク質のホモログの存在率や、それらのホモログの遺伝子近傍…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

高速なツール