Sourmashのgatherコマンド

Sourmash helpより Sourmashのサブコマンド `gather` は、メタゲノム解析で最適なリファレンスゲノム（のシグネチャファイル）をリファレンスゲノムデータベースから選択する。 k-merは非常に特異的なので、Sourmash gather は、過去にシークエンシングされ…

2022-04-15

ゲノムやタンパク質配列セットをMinHash Sketchで比較するsourmash 其の2

MInHash 高速なツール tips

2022/04/17 コマンド修正 MinHash Sketch（BBSketchの解説）を構築し、Jaccard指数で比較・検索するsourmashは、発表後もバージョンアップが続けられていて、現在では様々なコマンドが利用できるようになっています。そこで今日は、sourmashのグネチャファイ…

2022-03-31

疑似マッピングによる原核生物とウイルス集団の正確なメタゲノムプロファイリングを行う KMCP

2022 Preprint k-mer ヒト腸内 (human gut) MInHash abundance estimation in metagenomics data Bioinformatics

2022/10/17 help更新 2023/01/05 論文引用、07/26 追記微生物リファレンスゲノムの増加により、メタゲノム解析の精度は向上したが、分類学的プロファイラーのインデックス作成効率、データベースサイズ、実行時間に対する要件は高くなってきている。また、…

2021-12-15

Minhashをメタゲノム解析へ応用する CMash

2017 Preprint MInHash テスト失敗 2019 metagenome

Minhashは、2つの集合の類似性をJaccard指数（集合の和に対する交点の大きさの比として定義される）の観点から推定する確率的な手法である。この手法は、対象となる集合の大きさが似ている場合に最も優れた性能を発揮し、集合の大きさが大きく異なる場合には…

2021-06-18

全ゲノム配列ファイルを迅速に比較する Mashtree

2019 Journal of Open Source Software 高速なツール分子系統樹系統解析 all versus all sequence comarison MInHash

過去10年間で、公開されている細菌ゲノムの数は劇的に増加した。ゲノムはシークエンスされ、一般に共有され、その後、系統的な関連性が分析される。疫学的に関心のある2つのゲノムが関連していることがわかれば、さらなる調査が促されるかもしれない。しかし…

2020-03-17

計算リソースを効率的に使って多数のよく似たバクテリアゲノムを素早く分析する自動化されたパイプライン Bactopia

2020 3/17 パラメータ追記、コマンド修正、タイトル修正 2020 3/18 追記 2020 5/11 説明追加 2020 8/13 論文追記 2020 12/9 ツイート追加 2021 2/24アップデートされたコマンドに修正 2021 10/7 ツイート追加イルミナのテクノロジーを使用した細菌ゲノムの…

2020-03-15

ラップトップでも軽快に動作するゲノム比較ツール bindash

2019 Bioinformatics MInHash genetic distance 高速なツール

ゲノム（メタゲノムを含む）の数は加速的に増加している。近い将来、数百万のゲノム間のペアワイズ距離を推定する必要があるかもしれない。クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…

2019-08-03

elPrep 4

2019 MInHash PLoS ONE bam/sam 高速なツール SNV PCR filtering human exome human genome mapping

2020, 2021 9/17 追記 elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル（SAM / BAM）[ref.2]を準備するためのマルチスレッドツールである。パイプライ…

2019-03-06

サンプルのコンタミネーションを見積もる Mash Screen

2019 Preprint metagenome 生物種の推定 (taxonomic profiling) virus archaea bacteria contamination MInHash 高速なツール genetic distance plasmid

2019 11/5 論文追加シーケンシング技術がスループットを高めそしてコストを下げ続けるにつれて、シーケンシングされたゲノムのデータベース（例えばNCBI RefSeq [ref.1]）は指数関数的成長を続け、それらに対する検索をさらに複雑にしている[ref.2、3]。さ…

2019-01-07

k-merベースのスケーラブルなメタゲノムの全配列比較ツール Libra

2018 GigaScience metagenome 生物種の推定 (taxonomic profiling) k-mer web tool database virus taxonomic assignment automatic pipeline MInHash genetic distance CyVerse

ショットガンメタゲノミクスは、微生物群集の生物多様性と機能に対する強力な洞察を提供する。しかしながら、メタゲノム研究からの推論は、データセットのサイズと複雑さや既存のデータベースの可用性と完全性によって制限される。 de novo比較メタゲノミク…

2018-11-30

ゲノムスキミングサンプルから種を同定する Skmer

genome skimming Preprint 生物種の推定 (taxonomic profiling) MInHash

環境サンプルの分類学的多様性を迅速かつ安価に研究する能力は、急速な気候変動と生物多様性の変化が起きているこの時代において非常に重要である。現在選択されている分子技術は、（meta）Barcoding[論文より ref.1- 3]である。伝統的な（meta）Barcodingは…

2018-11-19

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

MInHash ゲノム比較 (comparative genomics) 高速なツール結果の視覚化 (visualization) 系統解析 Bioconductor genetic distance k-mer protein search 2019 F1000Research AAI

2019 7/5 インストールエラー修正、twitter追記 2020 1/5 twitter追記、2/4 twitter追記、2/20 コマンド修正、2/27 help更新, コマンド修正、5/5 twitter追記 2022/04/15 コマンド例を追加 sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作す…

2018-10-29

複数メタゲノムアセンブリのアセンブリ精度を比較して、種レベルでユニークな配列セットを得る dRep

2017 The ISME Journal ゲノム比較 (comparative genomics) time series dataset metagenome download ANI MInHash dereplication mOTU

2019 5/7 インストール追記、6/16 パラメータ追記、6/16 upしたdocker イメージのエラー修正、6/18 link追加 2021 4/29 インストール追記、5/18 インストール追記 (condaによるpplacerの導入）、5/27 タイトル変更、5/29, 6/30 compareコマンド追記 2022/06/…

2018-09-14

MinHashを使った高速なANI計算ツール fastANI

Preprint MInHash bacteria ゲノム比較 (comparative genomics) ANI 結果の視覚化 (visualization) 高速なツール 2018 Nature Communications docker

2019 1/09 cocndaインストール追記 ,2/12 不要な文を削除, 4/12 dockerリンク追加 2020 4/2 インストール手順修正2022 03/28 help更新さまざまな生態学的背景と進化の歴史を持つ原核生物ゲノムのコレクションが公開されている。このゲノムデータの大洪水は…

2018-07-13

k-merを使い進化距離や相同性を高速計算する Kmer-db

k-mer 高速なツール genetic distance 生物種の推定 (taxonomic profiling) ゲノム比較 (comparative genomics) MInHash

Preprintより何千もの異なる生物のシーケンシング解析の過程で大量のデータが生成された（100K Pathogen Genome Project（Weimer el al、2017、NCBI Pathogen Detection（https://www.ncbi.nlm.nih.gov/ pathogens））、これは迅速な分析方法を要求する。 …

2018-06-19

MinHashを利用した長い配列（ゲノムやロングリード）のアライナー MashMap

MInHash Pacbio mapping Nanopore long read 高速なツール結果の視覚化 (visualization) ゲノム比較 (comparative genomics) dot plot 2018 Bioinformatics

2018 タイトル修正 2019 6/21 インストール追記、論文追記 2020 10/19 help更新、文章修正ハイスループットDNAシーケンサーによって生成されたリードをリファレンスゲノムにマッピングすることは、根本的かつ広く研究されている課題である[Preprintより ref…

2018-05-11

MinHashを使い高速にゲノムを比較する MASH

ゲノム比較 (comparative genomics) 生物種の推定 (taxonomic profiling) 高速なツール MInHash plasmid genetic distance 2016 Genome Biology docker

2019 4/12 dockerリンク追加 2021 3/25 condaインストール追記 BLASTが1990年に初めてpublishされたとき、公開されたアーカイブには5000万塩基以下の塩基配列しか存在しなかった[論文より ref.2]。現在では、1つのシーケンシング機器1回の実行で1兆塩基を超…

2018-05-09

MinHashを使いfasta / fastqから生物種を高速推定する BBSketch

ANI 生物種の推定 (taxonomic profiling) Nanopore long read Pacbio k-mer 高速なツール MInHash fungi rRNA protein search

2019 6/13 追記 2019 7/18 インストール追記 2020 7/7 コマンド追記、help 更新 2020 7/9 文章追記以前このブログで紹介したBBtoolsに、Minhashアルゴリズム（リンク）を使ってわずか数秒でゲノムなどの大きな配列を比較し、トップヒットを返してくれる機能…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

MInHash