種のツリーにクエリを追加する DEPP

新しい配列をリファレンス系統樹上に配置することは、環境サンプル、特にマイクロバイオームの解析にますます利用されるようになってきている。既存の配置手法は、クエリ配列がリファレンス系統上で直接特定のモデルの下で進化してきたと仮定している。例え…

2020-03-15

ラップトップでも軽快に動作するゲノム比較ツール bindash

2019 Bioinformatics MInHash genetic distance 高速なツール

ゲノム（メタゲノムを含む）の数は加速的に増加している。近い将来、数百万のゲノム間のペアワイズ距離を推定する必要があるかもしれない。クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…

2019-09-14

モデルベースでDNA-DNAハイブリダイゼーションを計算するwebツール GGDC

2013 BMC Bioinformatics digital DNA-DNA hybridization (dDDH) web tool bacteria archaea ゲノム比較 (comparative genomics) genetic distance GC

2020 7/28 追記、タイトル修正 DNA-DNAハイブリダイゼーション（DDH）は、古細菌および細菌種の描写のための分類学的ゴールドスタンダードとして現在も使用されているウェットラボ法である。 2つのそれぞれの生物のゲノムDNAがDDHの類似性が70％未満であるこ…

2019-07-21

アラインメントフリーの配列比較GUIツール CAFE

Nucleic Acids Research 2017 ゲノム比較 (comparative genomics) 結果の視覚化 (visualization) 分子系統樹 k-mer heatmap genetic distance GUIツール

配列比較は、分子配列間の関係を研究するために広く使用されている。配列比較のための主なツールは、global（ref.1）およびlocal（ref.2）シーケンスアラインメントを含むアラインメントベースの方法である。 BLAST（ref.3）のようなアラインメントベースの…

2019-03-06

サンプルのコンタミネーションを見積もる Mash Screen

2019 Preprint metagenome 生物種の推定 (taxonomic profiling) virus archaea bacteria contamination MInHash 高速なツール genetic distance plasmid

2019 11/5 論文追加シーケンシング技術がスループットを高めそしてコストを下げ続けるにつれて、シーケンシングされたゲノムのデータベース（例えばNCBI RefSeq [ref.1]）は指数関数的成長を続け、それらに対する検索をさらに複雑にしている[ref.2、3]。さ…

2019-02-17

HyperLogLogを使って超高速にゲノム距離を計算する Dashing

2019 Preprint HyperLogLog 高速なツール genetic distance 系統解析ゲノム比較 (comparative genomics)

2019 2/17 テスト環境の誤り修正 Mashツール[ref.1]のリリース以来、MinHashのようなデータスケッチは比較ゲノミクスにおいて有益になっている。それらは大規模データベースからのゲノムのクラスター化[ref.1]、特定のシーケンス内容を持つデータセットの検…

2019-01-07

k-merベースのスケーラブルなメタゲノムの全配列比較ツール Libra

2018 GigaScience metagenome 生物種の推定 (taxonomic profiling) k-mer web tool database virus taxonomic assignment automatic pipeline MInHash genetic distance CyVerse

ショットガンメタゲノミクスは、微生物群集の生物多様性と機能に対する強力な洞察を提供する。しかしながら、メタゲノム研究からの推論は、データセットのサイズと複雑さや既存のデータベースの可用性と完全性によって制限される。 de novo比較メタゲノミク…

2018-11-22

multi-FASTA alignmentからSNPを抽出する SNP-sites

2016 Microbial Genomics SNP VCF cloud genetic distance multiple sequence alignment (MSA)

次世代シーケンシング（NGS）技術は、 Single Nucleotide polymorphism（SNP）発見のためにゲノムを大規模にリシーケンシングすることを容易にした。そのようなプロジェクト中に発見された何千ものSNPは、生物学的解釈および計算解析のためにいくらかの困難…

2018-11-20

FASTAアライメントからSNP distance matrixを出力する snp-dists

multiple sequence alignment (MSA) genetic distance MLST SNP

snp-distsは、Torsten Seemannさん (GIthub) がGithubで公開されている、配列間のSNP数を計算して、行列出力するツール。 If you also want a SNP distance matrix from the alignment, I wrote snp-dists to match: https://t.co/CAM04kDSBP — Torsten Seem…

2018-11-19

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

MInHash ゲノム比較 (comparative genomics) 高速なツール結果の視覚化 (visualization) 系統解析 Bioconductor genetic distance k-mer protein search 2019 F1000Research AAI

2019 7/5 インストールエラー修正、twitter追記 2020 1/5 twitter追記、2/4 twitter追記、2/20 コマンド修正、2/27 help更新, コマンド修正、5/5 twitter追記 2022/04/15 コマンド例を追加 sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作す…

2018-07-13

k-merを使い進化距離や相同性を高速計算する Kmer-db

k-mer 高速なツール genetic distance 生物種の推定 (taxonomic profiling) ゲノム比較 (comparative genomics) MInHash

Preprintより何千もの異なる生物のシーケンシング解析の過程で大量のデータが生成された（100K Pathogen Genome Project（Weimer el al、2017、NCBI Pathogen Detection（https://www.ncbi.nlm.nih.gov/ pathogens））、これは迅速な分析方法を要求する。 …

2018-05-11

MinHashを使い高速にゲノムを比較する MASH

ゲノム比較 (comparative genomics) 生物種の推定 (taxonomic profiling) 高速なツール MInHash plasmid genetic distance 2016 Genome Biology docker

2019 4/12 dockerリンク追加 2021 3/25 condaインストール追記 BLASTが1990年に初めてpublishされたとき、公開されたアーカイブには5000万塩基以下の塩基配列しか存在しなかった[論文より ref.2]。現在では、1つのシーケンシング機器1回の実行で1兆塩基を超…