metadata
前回紹介しましたPPanGGOLiNのグラフですが、PPanGGOLiNはHDF-5というファイルフォーマットでパンゲノムを作成し、管理しています。出力ディレクトリにある.h5ファイルがこれに相当します。このファイルは、パンゲノム解析の結果を関連するパラメータや完全…
2024/09/17追記 Githubより NCBI Datasetsは、NCBIデータベース全体のデータを簡単に収集できるリソースである。コマンドラインインターフェース(CLI)ツールやNCBI Datasetsウェブインターフェースを使って、遺伝子やゲノムの配列、アノテーション、メタデ…
Gene Expression Omnibusは、二次解析のための重要な生物学的データ源となっている。しかし、Gene Expression Omnibus (GEO)からデータやメタデータを標準的なアノテーションフォーマットでダウンロードするシンプルでプログラム的な方法は存在しない。GEOfe…
病原体やその系統の解析では、一塩基多型(SNP)を用いてその進化史を再構築することが一般的である。しかし、ゲノムワイドなSNPベースの系統樹がさらなる情報なしに解析されることはほとんどない。SNPのデータだけでなく、サンプルのメタデータも含めて解析…
ゲノム、トランスクリプトーム、その他の微生物オミックスデータの解釈は、十分にアノテーションされたゲノムの利用可能性に大きく依存している。公開されている微生物ゲノムの数が指数関数的に増加し続ける中、品質管理と一貫したアノテーションの必要性が…
2024/02/26 追記 GraPPLEは、Graphia (Pubmed) によるパンゲノムグラフの可視化支援スクリプトです。細菌のパンゲノムグラフの活用法について学ぶためには、最近出たこちらの論文(link)がとても参考になりました。 Githubより GraPPLEのスクリプトは、バク…
2022/05/20 論文引用 タイトルの通りのツール。簡単に紹介します。 `ffq` (Fetch FastQ) is a new command line tool that makes it easier to find #sequencing data from the SRA / GEO / ENA. Importantly `ffq` does not download files, just file meta…
公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以…
メタゲノム解析は、微生物群集の特徴を明らかにし、マイクロバイオームと生物学的プロセスの複雑な関連性を解明する可能性を秘めている。アセンブリは、メタゲノミクス実験において最も重要なステップの1つである。アセンブリとは、重複するDNAシーケンスリ…
2021 11/11 ツイート追加 nf-core/fetchfastqは、公共のデータベースからメタデータと生のFastQファイルを取得するバイオインフォマティクス・パイプラインである。現在、このパイプラインはSRA / ENA / GEOのIDをサポートしている(使用方法のドキュメント…
GMrepo (data repository for Gut Microbiota)は、キュレートされ、一貫してアノテーションされたヒト腸管メタゲノムのデータベースである。GMrepoの主な目的は、急速に増加しているヒトのメタゲノムデータの再利用とアクセスを容易にすることである。これは…
2022/06/25 タイトル変更 微生物群集の遺伝的可能性に着目したマイクロバイオーム研究(メタゲノム研究)は、微生物生態学の分野では標準的なものとなった。MG-RASTとSequence Read Archive (SRA)という2つの主要なメタゲノムリポジトリには、202,858以上の…
次世代シークエンシング技術の出現により、ここ10年で、ヒトのマイクロバイオームから環境(水や土壌)、都市の表面に至るまで、メタゲノムやマイクロバイオーム研究が急増している。これらの研究はすべて、発見された配列をサンプルに見られる分類学的プロ…
2020 7/2 誤字修正 2021 4/27 v5の論文リンク追加 2022 8/27追記 2024/04/21 v6論文追加 系統樹は、生物学やその他の科学分野において重要なツールであり、様々なデータタイプのコンテキスト化としても機能している。このことは、このような系統樹を作成する…
CoMut plotは、ガン研究のpublicationsで、ガンコホートにおける突然変異の分布を視覚的に要約したものとして広く使用されている。この要約プロットは、遺伝子変異率とサンプルの変異負担を関連する臨床的詳細とともに調べることができ、サンプル間の遺伝子…
2020 4/1 タイトル修正、誤字修正 2020 10/24 仮想環境を解くって導入するように修正 2021 5/23 conda => mambaに修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Meta…
2020 3/37 タイトル修正 Antimicrobial resistance(AMR)は、公衆衛生に対する脅威の増加である。 AMRを決定する現在の方法は、非効率的な表現型アプローチに依存しており、多くの病原体と抗菌薬の組み合わせのAMRメカニズムの理解が不完全なままとなってい…
2022/04/20 タイトル修正 いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世…