2ラウンドのオーバーラッピングとキャッシュに基づく高速エラー訂正を行う Fec

第3世代シーケンサーは長いリード長でゲノム解析を進めるが、リードのエラーレートが高いため、エラー訂正が必要になる。特にシーケンスカバレッジが高い場合、エラー訂正は時間のかかる作業である。一般に、既存の誤り訂正手法は、重複するリードAを訂正す…

2022-08-16

InParanoidをDIAMONDにより高速化した InParanoid-DIAMOND

2022 Bioinformatics Singularity docker orthologue 高速なツール

バイオインフォマティクスにおいて、祖先を共有する異なる生物種の遺伝子であるオルソログを予測することは重要な課題である。オルソログ予測ツールは、大量のデータを実行可能な時間内に解析するために、正確かつ高速に予測することが要求される。InParanoi…

2022-08-03

Foldseekを使ってAlphaFold UniProt DBから類似構造タンパク質を探す Foldseek server

structural aligners 2022 Preprint AlphaFold web tool 高速なツール PDB 2023 Bioinformatics Nature Biotechnology

2022/08/03 誤字修正 2023/07/10 追記高精度な構造予測手法により、一般に公開されているタンパク質の構造が雪崩のように増えている。これらの構造を検索することが、構造解析の主なボトルネックになりつつある。Foldseekは、大規模な構造セットを高速かつ…

2022-07-13

機械学習を用いた微生物ゲノム品質の迅速で正確かつスケール可能な評価ツール　CheckM2

高速なツール Preprint 2022 evaluation tool MIMAGs/MISAGs metagenome contamination 2023 Nature Methods

2023/07/28 論文引用 2024/04/16 インストール追記 DNA シーケンスとバイオインフォマティクスの進歩により、メタゲノム解析データからの微生物ゲノムの回収率は飛躍的に向上した。メタゲノム解析で得られたゲノムの品質を評価することは、解析に先立つ重要…

2022-07-01

高速でスケーラブルなパンゲノミクスツールボックス PIRATE

2019 GigaScience docker pan-genome tRNA rRNA 高速なツール

2022/10/17 追記天然の細菌集団内の遺伝子分布をカタログ化することは、進化の過程や適応の遺伝的基盤を理解するために不可欠である。全ゲノム配列決定技術の進歩により、公開データベースに登録される細菌ゲノムの量は膨大なものとなっている。このような…

2022-06-25

集団特異的なリファレンスゲノムを作成するための高速なゲノム研磨ツール JASPER

高速なツール 2022 Preprint polish human whole genome population genomics k-mer

ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…

2022-06-15

全ゲノムアライメントからバリアントを報告する WGAVarHunter

高速なツール variant ゲノム比較 (comparative genomics) structural variations (SV) small indel SNV

WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。現在はバイナリのみ公開されています。試して…

2022-06-07

ロングリードのアセンブラ NextDenovo

Nanopore long read Pacbio assembly 高速なツール polish

2022/06/09 追記 Githubより NextDenovoは、ロングリード（CLR、HiFi、ONT）用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが（PacBio HiFiリードは修正ステップなし）、必要な計算資源と…

2022-06-06

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

2022 2021 Preprint Bioinformatics SNV structural variations (SV) human whole genome liftOver 高速なツールインフォマティクス解析をサポートするツール docker Singularity bam/sam

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

2022-05-30

ショートリードの遺伝子予測の高速化 FragGeneScanRs

2022 高速なツール BMC Bioinformatics coding region ab initio gene prediction gene prediction

FragGeneScanは現在、短くてエラーが起こりやすいリードの遺伝子予測に最も正確で人気のあるツールであるが、その実行速度は大規模データセットで使用するには不十分である。この問題を解決するはずの並列化も非効率的であった。その代替実装であるFragGeneS…

2022-04-30

シーケンスデータ中のウイルス・微生物検出を高速に行う RabbitV

2022 Bioinformatics SARS-CoV-2 Viruses 高速なツール結果の視覚化 (visualization) k-mer

シークエンスデータに含まれるウイルスや微生物の検出・同定は、病原体の診断や研究において重要な役割を担っている。しかし、この問題のための既存のツールは、しばしば高い実行時間とメモリ消費に悩まされている。本著者らは、ユニークなk-merの高速同定に…

2022-04-21

生のシークエンシングリードからスケーラブルな高精度の系統樹を生成する Read2Tree

SARS-CoV-2 2022 Preprint phylogenetic marker genes 分子系統樹 automated pipeline 高速なツール 2023 Nature Biotechnology

2023/06/27 論文引用シーケンスのリードデータから系統樹を推定することは、生物学の基礎となるものである。しかし、最新の系統樹解析では、複雑なパイプラインを実行する必要があり、多大な計算コストと人件費がかかる上、シーケンスのカバレッジ、アセン…

2022-04-15

ゲノムやタンパク質配列セットをMinHash Sketchで比較するsourmash 其の2

MInHash 高速なツール tips

2022/04/17 コマンド修正 MinHash Sketch（BBSketchの解説）を構築し、Jaccard指数で比較・検索するsourmashは、発表後もバージョンアップが続けられていて、現在では様々なコマンドが利用できるようになっています。そこで今日は、sourmashのグネチャファイ…

2022-03-27

condaレシピの自動生成ツール Grayskull

インフォマティクス解析をサポートするツール conda CRAN 高速なツール

Githubより Grayskullはcondaのレシピを自動生成します。このプロジェクトの主な目的は、conda-forgeのための簡潔なレシピを生成することです。Grayskullプロジェクトは、最終的にconda skeletonを置き換えることを意図して作られています。現在、Grayskull…

2022-03-13

アダプタートリミングと低品質塩基のトリミングを行う並列化実装 Atria

2021 Gigabyte trimming / preprocessing 高速なツール

2022/03/13 文章修正 2022/03/15 誤字修正次世代シーケンサーの進歩により、リードに付着したアダプターや低品質の塩基が直接的に、あるいは暗黙のうちに、ダウンストリーム解析の妨げとなる。たとえば、偽陽性一塩基多型（SNP）、断片化したアセンブリが…

2022-02-20

（非モデル生物）RNA-seqデータの超高速な機能的プロファイリングを行う seq2fun

Genome Research 2021 高速なツール RNA seq KEGG GO term de novo transcriptome RNAseqの定量

2022/02/21 画像追記リファレンスゲノムを持たない非モデル生物のRNA-seqデータ解析では、計算時間とコストが依然として大きなボトルネックとなっている。この課題を解決するために、著者らは、トランスクリプトームde novoアセンブリを行わずにRNA-seqリー…

2022-01-13

超高速で高精度なアンプリコンシークエンス解析ツール LotuS2

2021 Preprint amplicon sequence 高速なツールテスト失敗

2023/04/21 追記アンプリコンシークエンスは、マイクロバイオームのプロファイリングにおいて確立されたコスト効率の高い手法である。しかし、このデータを処理するための多くのツールは、大きなデータセットを処理するためにバイオインフォマティクスのス…

2022-01-07

ナノポアシグナルデータを効率的かつ並列に解析するための SLOW5フォーマットを扱う slow5tools

Nanopore long read format conversion SLOW5 format 高速なツール index

現在、最もポピュラーなシグナルレベル解析は、ソフトウェアNanopolish/f5cを用いたDNAメチル化プロファイリングである。この使用例をもとに、ハイパフォーマンス・コンピューティング（HPC）システムでのFAST5データ解析について解析した（論文補足説明2）…

2021-12-17

高効率なカバレッジ計算ツール BamToCov

2021 Preprint bam/sam wig 高速なツール bed physical coverage Mate Pair Nanopore long read 2022 Bioinformatics

2022/02/25 論文引用多くのゲノミクスアプリケーションでは、リファレンスのヌクレオチドカバレッジを計算したり、リファレンス領域に何本のリードがマッピングされているかをカウントしたりする必要がある。本発表では、BamToCovを紹介する。このツールは…

2021-12-11

ショートリードとロングリードによりトランスクリプトームアセンブリの構造回復とアバンダンス推定を行う StringTieの新しいバージョン

2021 Preprint 高速なツール RNA seq hybrid assembly Reference-assisted assembly

トランスクリプトームのアセンブリには、short-read RNA sequencingとlong-read RNA sequencingのそれぞれに長所と短所がある。ショートリードは精度が高い反面、複数のエクソンにまたがることができない。Long-read技術は、完全な長さの転写産物を捉えるこ…

2021-11-10

ショートリードマッピングの高速化 strobealign

2021 Preprint 高速なツール SNV mapping

2022/04/15 インストール手順更新ショートリードのゲノムへのアラインメントは、多くのバイオインフォマティクス解析で用いられる基本的な計算ステップである。そのため、このような計算をできるだけ高速に行うことが望まれている。多くのアラインメントア…

2021-11-09

ナノポアのロングリードの品質管理とサマリーレポートを高速に生成する nanoq

高速なツール Nanopore long read quality check

2022/02/02 追記 Githubより Nanoqは超高速リードフィルターとサマリーレポートを実装している。品質スコアは、技術文書や別の記事で説明しているように、ナノポア・シーケンス・データからのベースコールに対して計算される。 I recently pushed an update …

2021-10-21

オックスフォードナノポアのリードのアセンブルを素早く行う dragonflye

高速なツール Nanopore long read assembly

2022/03/26 インストールコマンドの間違い修正レポジトリよりバクテリアの配列を扱ったことがある人なら、おそらくTorsten Seemann氏（HP）のツールの一つを使ったことがあるでしょう。そのようなツールの1つがShovill（紹介）で、バクテリアのゲノムアセ…

2021-10-10

BAMファイルからカバレッジトラックを抽出するシンプルで高速なツール covtobed

高速なツール

バイオインフォマティクスの一般的な課題は、次世代シーケンシング実験で生成されたDNAシーケンシングリードを参照ゲノムにマッピングすることである。アラインメントの出力は、一般的にBAMファイルにエンコードされる（Li et al.2009）。DNAシーケンシング…

2021-09-22

機械学習の手法でエミュレートされたBWA-MEM: BWA-MEME

2021 Preprint mapping 高速なツール 2022 Bioinformatics

次世代シーケンサーの普及やシーケンサーのスループットの向上に伴い、効率的なショートリードのアライメントが求められているが、その中でもシーディングは主要な性能ボトルネックの一つとなっている。Seeding phaseのキーとなるチャレンジは、リファレンス…

2021-09-20

elPrep 5を使ったバリアントコール

2021 PLoS ONE human exome variant human genome 高速なツール tips

GATK Best Practices for variant callingに完全対応したelPrep5 (紹介) には、大きく分けて２つのモードが用意されています。１つ目は完全にRAM内で動作する（フィルタ）モードで、これは中間ファイルを全く書き出さず完全にRAM内で計算を進めるため、非常…

2021-09-12

（Prokaryotes）ドラフトゲノムのポリッシングを行う Polypolish

polish bacteria repetitive sequences 高速なツール 2021 Preprint

2021 10/21 論文引用 Githubより Polypolishはショートリードによるゲノムアセンブリを研磨するツールです。このカテゴリーの他のツールとは異なり、Polypolishは各リードが（単一の最適な位置ではなく）すべての可能な位置にアラインメントされたSAMファイ…

2021-08-20

（ヒトゲノム）超高速なk-mer問い合わせwebサービス KmerKeys

k-mer 2021 Preprint 高速なツール variant human genome web tool primer CRISPR 2022 Nucleic Acids Research

2022/05/21 論文引用 K-merは、ゲノム配列解析に使用される短いDNA配列である。K-merを使ったアプリケーションには、ゲノムアセンブリやアラインメントがある。しかし、バイオインフォマティクスの分野でk-merを広く利用するには、ゲノム配列データの巨大化…

2021-08-18

公開メタゲノムに対する高速なアミノ酸配列の類似性検索サービス PZLAST

高速なツール web tool metagenome 2021 metadata 結果の視覚化 (visualization) Marine Metagenomics ヒト腸内 (human gut) ヒト口腔 (human oral) SRA

公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以…

2021-08-01

メタゲノムのリードカバレッジとrelative abundanceの計算ツール coverM

高速なツール abundance estimation in metagenomics data metagenome dereplication

2021 8/5追記、9/6 追記、10/8 contigコマンド修正 2022/05/09 help修正、06/03 コマンド 2023/08/10 追記 2024/04/12 構成を整頓 Githubより CoverMは、メタゲノミクスアプリケーションに特化した、設定可能で使いやすく、高速なDNAリードカバレッジおよび…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。