macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

genetic distance

種のツリーにクエリを追加する DEPP

新しい配列をリファレンス系統樹上に配置することは、環境サンプル、特にマイクロバイオームの解析にますます利用されるようになってきている。既存の配置手法は、クエリ配列がリファレンス系統上で直接特定のモデルの下で進化してきたと仮定している。例え…

ラップトップでも軽快に動作するゲノム比較ツール bindash

ゲノム(メタゲノムを含む)の数は加速的に増加している。 近い将来、数百万のゲノム間のペアワイズ距離を推定する必要があるかもしれない。 クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…

モデルベースでDNA-DNAハイブリダイゼーションを計算するwebツール GGDC

2020 7/28 追記、タイトル修正 DNA-DNAハイブリダイゼーション(DDH)は、古細菌および細菌種の描写のための分類学的ゴールドスタンダードとして現在も使用されているウェットラボ法である。 2つのそれぞれの生物のゲノムDNAがDDHの類似性が70%未満であるこ…

アラインメントフリーの配列比較GUIツール CAFE

配列比較は、分子配列間の関係を研究するために広く使用されている。配列比較のための主なツールは、global(ref.1)およびlocal(ref.2)シーケンスアラインメントを含むアラインメントベースの方法である。 BLAST(ref.3)のようなアラインメントベースの…

サンプルのコンタミネーションを見積もる Mash Screen

2019 11/5 論文追加 シーケンシング技術がスループットを高めそしてコストを下げ続けるにつれて、シーケンシングされたゲノムのデータベース(例えばNCBI RefSeq [ref.1])は指数関数的成長を続け、それらに対する検索をさらに複雑にしている[ref.2、3]。さ…

HyperLogLogを使って超高速にゲノム距離を計算する Dashing

2019 2/17 テスト環境の誤り修正 Mashツール[ref.1]のリリース以来、MinHashのようなデータスケッチは比較ゲノミクスにおいて有益になっている。それらは大規模データベースからのゲノムのクラスター化[ref.1]、特定のシーケンス内容を持つデータセットの検…

k-merベースのスケーラブルなメタゲノムの全配列比較ツール Libra

ショットガンメタゲノミクスは、微生物群集の生物多様性と機能に対する強力な洞察を提供する。しかしながら、メタゲノム研究からの推論は、データセットのサイズと複雑さや既存のデータベースの可用性と完全性によって制限される。 de novo比較メタゲノミク…

multi-FASTA alignmentからSNPを抽出する SNP-sites

次世代シーケンシング(NGS)技術は、 Single Nucleotide polymorphism(SNP)発見のためにゲノムを大規模にリシーケンシングすることを容易にした。そのようなプロジェクト中に発見された何千ものSNPは、生物学的解釈および計算解析のためにいくらかの困難…

FASTAアライメントからSNP distance matrixを出力する snp-dists

snp-distsは、Torsten Seemannさん (GIthub) がGithubで公開されている、配列間のSNP数を計算して、行列出力するツール。 If you also want a SNP distance matrix from the alignment, I wrote snp-dists to match: https://t.co/CAM04kDSBP — Torsten Seem…

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

2019 7/5 インストールエラー修正 、twitter追記 2020 1/5 twitter追記、2/4 twitter追記、2/20 コマンド修正、2/27 help更新, コマンド修正、5/5 twitter追記 2022/04/15 コマンド例を追加 sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作す…

k-merを使い 進化距離や相同性を高速計算する Kmer-db

Preprintより 何千もの異なる生物のシーケンシング解析の過程で大量のデータが生成された(100K Pathogen Genome Project(Weimer el al、2017、NCBI Pathogen Detection(https://www.ncbi.nlm.nih.gov/ pathogens) )、これは迅速な分析方法を要求する。 …

MinHashを使い高速にゲノムを比較する MASH

2019 4/12 dockerリンク追加 2021 3/25 condaインストール追記 BLASTが1990年に初めてpublishされたとき、公開されたアーカイブには5000万塩基以下の塩基配列しか存在しなかった[論文より ref.2]。現在では、1つのシーケンシング機器1回の実行で1兆塩基を超…

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…