fastpのバッチ処理スクリプトを使う

2025/09/19 追記 fastpのversion 1.0がリリースされ、フォルダ内のfastqをバッチ処理する便利なスクリプトも提供されました。このスクリプトの使い方を確認しておきます。インストール最新のfastpにパスが通っている必要がある。fastpのバージョンが１未満…

2025-09-10

超高速なGFF操作ユーティティ GFFx

2025 GFF 高速なツール Preprint

ゲノムアノテーションは、多様な調節要素や転写バリアントの発見により、ますます包括的になりつつある。しかし、このアノテーション精度の向上は、特に大規模ゲノムやパンゲノムを横断する効率的なクエリに対して重大な課題をもたらす。既存のツールは、大…

2025-08-14

超高速かつ堅牢なMAGのANI比較を行う skani

2023 Nature Methods ANI 高速なツール metagenome GTDB

メタゲノムアセンブリゲノム（MAG）用のシーケンス比較ツールは、大量のデータや低品質のデータに対処するのが困難である。本著者らは、疎な近似アラインメントを用いて平均ヌクレオチド同一性（ANI）を決定する手法であるskani（https://github.com/bluenot…

2025-08-14

(GPU対応) 距離ベースの系統解析を超高速に行う DIPPER

Preprint 2025 高速なツール系統解析 docker GPU Neighbor-Joining

距離に基づく手法は、その優れた速度、スケーラビリティ、理論的保証により、さまざまな用途で系統樹を再構築する際によく用いられている。しかし、従来のde novoアルゴリズムは立方時間（cubic time）と二次メモリ（quadratic memory）の計算量に制約されて…

2025-05-06

BWA-MEM-SCALE

2022 mapping 高速なツール

2025/05/08 追記 BWA-MEM-SCALEはBWA-MEM2およびBWA-Michをベースに、ゲノム配列アライメントの全ステップにおける性能向上を実現した。Exact Match Filter (EMF)、FM-index Accelerator (FMA)、様々な最適化技術が追加されている。BWA-MEM-SCALEは、利用可…

2025-05-03

ゲノム配列から高精度なab initioの遺伝子構造予測を行う Tiberius

2024 Bioinformatics 高速なツール eukaryotic genome annotation ab initio gene prediction Singularity

25年以上にわたり、学習ベースの真核生物遺伝子予測は、DNA配列を直接入力する隠れマルコフモデル（HMM）によって駆動されてきた。最近、HolstらはHelixerを用いて、深層学習とHMMポストプロセッサーを組み合わせることでab initio真核生物遺伝子予測の精度…

2025-05-03

fastqファイルを迅速かつ効率的に取得する ngsfetch

fasta/fastqの操作 download DRA SRA GEO ENA 高速なツール

ffqとaria2を使ってfastqファイルを取得するためのユーティリティ。大規模なデータセットを迅速かつ効率的にダウンロードできるよう設計されている。GEO、SRA、EMBL-EBIのENA、DDBJのDRAなどのデータのダウンロードに対応している。特徴（レポジトリより） …

2025-05-02

AAIを高速に推定する FastAAI

2025 Nucleic Acids Research AAI 高速なツール all versus all sequence comarison

環境や臨床由来の微生物叢（マイクロバイオーム）を記述するうえで、全ゲノムの類縁性推定および分類学的同定は、重要なバイオインフォマティクスの課題である。種レベルの近縁な微生物やウイルスゲノムの類縁性を推定するためには、ゲノム全体の平均ヌクレ…

2025-03-26

高速かつ低メモリ使用量でメタゲノムプロファイリングやANIサーチを行う sylph

2024 Nature Biotechnology Marine Metagenomics GTDB abundance estimation in metagenomics data 生物種の推定 (taxonomic profiling) ヒト腸内 (human gut) 高速なツール ANI

メタゲノムをデータベースと照合してプロファイリングすることで、アセンブルが不可能な低存在量でも微生物の検出と定量が可能になる。本著者らは、ゼロインフレートポアソンk-mer統計量を用いてゲノム間平均ヌクレオチド同一性（ANI）を推定し、ANIに基づく…

2025-03-04

ロングリードに最適化されたFastp: Fastplong

trimming / preprocessing 高速なツール

2025/08/13 追記 Fastplongは、広く使われているツールfastpをベースにロングリードのFASTQデータ前処理に最適化したfastp。Fastp同様にアダプターを自動的に検出する機能を持ち、従来より高速にロングリードの品質チェックとフィルタリングを行うことができ…

2025-02-24

セントロメアのde novoアノテーションを行う centroAnno

2025 Preprint 高速なツール centromere

2025/02/27 追記正確なセントロメアのアノテーションは、染色体の安定性、遺伝子制御、複雑なゲノム構造を解明するために不可欠である。しかし、既存のアノテーション手法は、予備知識に依存することが多く、多様なゲノム状況への適用には限界がある。本研…

2025-02-19

ProTrek

2024 protein search Preprint Marine Metagenomics PLM eukaryotic genome annotation enzyme function 高速なツール

ProTrekは、配列、構造、自然言語機能(SSF)をシームレスに融合し、先進的なトライモーダル言語モデルにすることで、タンパク質探索を再定義する。対照学習により、ProTrekはタンパク質データと人間の理解とのギャップを埋め、9つのSSFペアワイズモダリティの…

2025-02-14

ショートリードおよびロングリードシーケンスデータのアダプター残存など包括的な品質チェックを行う Sequali

Bioinformatics Advances 2025 結果の視覚化 (visualization) quality check Nanopore long read Pacbio 高速なツール barcode / index

2025/03/19 追記シーケンスデータの品質管理は、多くのシーケンスワークフローの最初のステップである。ショートリードおよびロングリードシーケンス技術には、品質管理に関して多くの共通点がある。品質管理プログラムはいくつか存在するが、両方のテクノ…

2025-01-29

コア遺伝子の立体構造情報を使って正確な系統復元を行う Unicore

2024 Preprint pan-proteome structural aligners NAR Genomics and Bioinformatics 高速なツール phylogenetic marker genes structural core genes GPU

あるクレードのほとんどのメンバーに共通するシングルコピーのコア遺伝子の解析は、系統復元やゲノムの質の評価など、生物学における重要な課題にとって重要である。コア遺伝子は従来、プロテオーム間のアミノ酸類似性の解析によって同定されてきたが、構造…

2025-01-26

超高速でスケーラブルなゲノム検索を行う gsearch

2024 2023 Nucleic Acids Research ANI AAI 高速なツール

ゲノム検索や分類は、データベース（参照ゲノム）に最もマッチするゲノムを見つけることが一般的であるが、利用可能なデータベースゲノムの数が増加していることや、従来の手法が大規模なデータベースに対してうまくスケールしないという事実により、ますま…

2025-01-18

GPUによる高速相同性検索に対応した MMseqs2

2024 高速なツール GPU protein search Preprint benchmark

急速に増加するタンパク質配列データベースの進化情報を検索するには、常に高速化が必要である。これは、配列のフィルタリングやギャップアラインメントを実行する革新的なアルゴリズムによって達成される。ここでは、8GPUで最大100TCUPSを達成するギャップ…

2025-01-13

環状DNA配列の開始位置を指定位置に回転させる Rotate

rotate fasta/fastqの操作高速なツール organelle genome

環状DNA分子（すなわち、ほとんどの細菌、ウイルス、プラスチドゲノム）に由来する配列は、アラインメントを含むほとんどの下流解析において、線状化され、共通の開始位置に回転されることが期待される。これは一般的で簡単な作業であるにもかかわらず、利用…

2024-11-01

高速なトランスクリプトームアノテーションパイプライン TransAnnot

Bioinformatics Advances 2024 de novo transcriptome 高速なツール annotation

2025/02/14 condaインストール追記(conda) 深くシークエンシングされ、de novoアセンブルされたトランスクリプトームのアノテーションは、最新のツールの中には動作が遅く、インストールが難しく、使いにくいものがあるため、依然として難題である。TransAnn…

2024-10-18

ウイルスゲノムの超高速・高精度配列アライメント、ANI計算とクラスタリングを行う vclust

2024 Preprint ANI sequence clustering virus Viromics 高速なツール

Viromicsは毎年数百万個のウイルスゲノムと断片を産生し、従来の配列比較法を圧倒している。Vclustは、Lempel-Ziv構文解析によって平均塩基同一性を決定し、権威ある viral genomics and taxonomy consortiaによって承認された閾値でウイルスゲノムをクラス…