MInHash
Sourmash helpより Sourmashのサブコマンド `gather` は、メタゲノム解析で最適なリファレンスゲノム(のシグネチャファイル)をリファレンスゲノムデータベースから選択する。 k-merは非常に特異的なので、Sourmash gather は、過去にシークエンシングされ…
2022/04/17 コマンド修正 MinHash Sketch(BBSketchの解説)を構築し、Jaccard指数で比較・検索するsourmashは、発表後もバージョンアップが続けられていて、現在では様々なコマンドが利用できるようになっています。そこで今日は、sourmashのグネチャファイ…
2022/10/17 help更新 2023/01/05 論文引用、07/26 追記 微生物リファレンスゲノムの増加により、メタゲノム解析の精度は向上したが、分類学的プロファイラーのインデックス作成効率、データベースサイズ、実行時間に対する要件は高くなってきている。また、…
Minhashは、2つの集合の類似性をJaccard指数(集合の和に対する交点の大きさの比として定義される)の観点から推定する確率的な手法である。この手法は、対象となる集合の大きさが似ている場合に最も優れた性能を発揮し、集合の大きさが大きく異なる場合には…
過去10年間で、公開されている細菌ゲノムの数は劇的に増加した。ゲノムはシークエンスされ、一般に共有され、その後、系統的な関連性が分析される。疫学的に関心のある2つのゲノムが関連していることがわかれば、さらなる調査が促されるかもしれない。しかし…
2020 3/17 パラメータ追記、コマンド修正、タイトル修正 2020 3/18 追記 2020 5/11 説明追加 2020 8/13 論文追記 2020 12/9 ツイート追加 2021 2/24アップデートされたコマンドに修正 2021 10/7 ツイート追加 イルミナのテクノロジーを使用した細菌ゲノムの…
ゲノム(メタゲノムを含む)の数は加速的に増加している。 近い将来、数百万のゲノム間のペアワイズ距離を推定する必要があるかもしれない。 クラウドコンピューティングを使用しても、そのような推定を実行できるソフトウェアはほとんどない。マルチスレッ…
2020, 2021 9/17 追記 elPrep 4はelPrep [ref.1]の大幅に拡張された再実装であり、DNAシーケンシングパイプラインでのバリアントコールのシーケンスアライメント/マップファイル(SAM / BAM)[ref.2]を準備するためのマルチスレッドツールである。パイプライ…
2019 11/5 論文追加 シーケンシング技術がスループットを高めそしてコストを下げ続けるにつれて、シーケンシングされたゲノムのデータベース(例えばNCBI RefSeq [ref.1])は指数関数的成長を続け、それらに対する検索をさらに複雑にしている[ref.2、3]。さ…
ショットガンメタゲノミクスは、微生物群集の生物多様性と機能に対する強力な洞察を提供する。しかしながら、メタゲノム研究からの推論は、データセットのサイズと複雑さや既存のデータベースの可用性と完全性によって制限される。 de novo比較メタゲノミク…
環境サンプルの分類学的多様性を迅速かつ安価に研究する能力は、急速な気候変動と生物多様性の変化が起きているこの時代において非常に重要である。現在選択されている分子技術は、(meta)Barcoding[論文より ref.1- 3]である。伝統的な(meta)Barcodingは…
2019 7/5 インストールエラー修正 、twitter追記 2020 1/5 twitter追記、2/4 twitter追記、2/20 コマンド修正、2/27 help更新, コマンド修正、5/5 twitter追記 2022/04/15 コマンド例を追加 sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作す…
2019 5/7 インストール追記、6/16 パラメータ追記、6/16 upしたdocker イメージのエラー修正、6/18 link追加 2021 4/29 インストール追記、5/18 インストール追記 (condaによるpplacerの導入)、5/27 タイトル変更、5/29, 6/30 compareコマンド追記 2022/06/…
2019 1/09 cocndaインストール追記 ,2/12 不要な文を削除, 4/12 dockerリンク追加 2020 4/2 インストール手順修正2022 03/28 help更新 さまざまな生態学的背景と進化の歴史を持つ原核生物ゲノムのコレクションが公開されている。このゲノムデータの大洪水は…
Preprintより 何千もの異なる生物のシーケンシング解析の過程で大量のデータが生成された(100K Pathogen Genome Project(Weimer el al、2017、NCBI Pathogen Detection(https://www.ncbi.nlm.nih.gov/ pathogens) )、これは迅速な分析方法を要求する。 …
2018 タイトル修正 2019 6/21 インストール追記、論文追記 2020 10/19 help更新、文章修正 ハイスループットDNAシーケンサーによって生成されたリードをリファレンスゲノムにマッピングすることは、根本的かつ広く研究されている課題である[Preprintより ref…
2019 4/12 dockerリンク追加 2021 3/25 condaインストール追記 BLASTが1990年に初めてpublishされたとき、公開されたアーカイブには5000万塩基以下の塩基配列しか存在しなかった[論文より ref.2]。現在では、1つのシーケンシング機器1回の実行で1兆塩基を超…
2019 6/13 追記 2019 7/18 インストール追記 2020 7/7 コマンド追記、help 更新 2020 7/9 文章追記 以前このブログで紹介したBBtoolsに、Minhashアルゴリズム(リンク)を使ってわずか数秒でゲノムなどの大きな配列を比較し、トップヒットを返してくれる機能…