macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

metadata

PPanGGOLiNのパンゲノムデータにメタデータを追加する

前回紹介しましたPPanGGOLiNのグラフですが、PPanGGOLiNはHDF-5というファイルフォーマットでパンゲノムを作成し、管理しています。出力ディレクトリにある.h5ファイルがこれに相当します。このファイルは、パンゲノム解析の結果を関連するパラメータや完全…

NCBIのゲノムや遺伝子配列をコマンドラインでダウンロードするNCBI Datasetsツール

2024/09/17追記 Githubより NCBI Datasetsは、NCBIデータベース全体のデータを簡単に収集できるリソースである。コマンドラインインターフェース(CLI)ツールやNCBI Datasetsウェブインターフェースを使って、遺伝子やゲノムの配列、アノテーション、メタデ…

GEOとSRAからデータおよびメタデータをダウンロードする GEOfetch

Gene Expression Omnibusは、二次解析のための重要な生物学的データ源となっている。しかし、Gene Expression Omnibus (GEO)からデータやメタデータを標準的なアノテーションフォーマットでダウンロードするシンプルでプログラム的な方法は存在しない。GEOfe…

ゲノムワイドなSNPデータとメタデータを同時に調べるためのウェブアプリケーション Evidente

病原体やその系統の解析では、一塩基多型(SNP)を用いてその進化史を再構築することが一般的である。しかし、ゲノムワイドなSNPベースの系統樹がさらなる情報なしに解析されることはほとんどない。SNPのデータだけでなく、サンプルのメタデータも含めて解析…

高品質の原核生物ゲノムを正確かつ一貫してアノテーション付けた proGenomes3

ゲノム、トランスクリプトーム、その他の微生物オミックスデータの解釈は、十分にアノテーションされたゲノムの利用可能性に大きく依存している。公開されている微生物ゲノムの数が指数関数的に増加し続ける中、品質管理と一貫したアノテーションの必要性が…

Graphiaによるパンゲノムグラフの可視化のサポートスクリプト GraPPLE

2024/02/26 追記 GraPPLEは、Graphia (Pubmed) によるパンゲノムグラフの可視化支援スクリプトです。細菌のパンゲノムグラフの活用法について学ぶためには、最近出たこちらの論文(link)がとても参考になりました。 Githubより GraPPLEのスクリプトは、バク…

シークエンスリードアーカイブからメタデータ情報をJSON形式で取得する ffq

2022/05/20 論文引用 タイトルの通りのツール。簡単に紹介します。 `ffq` (Fetch FastQ) is a new command line tool that makes it easier to find #sequencing data from the SRA / GEO / ENA. Importantly `ffq` does not download files, just file meta…

公開メタゲノムに対する高速なアミノ酸配列の類似性検索サービス PZLAST

公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以…

ウィルスメタゲノムのビニングのための効率的な深層学習ツール CoCoNet

メタゲノム解析は、微生物群集の特徴を明らかにし、マイクロバイオームと生物学的プロセスの複雑な関連性を解明する可能性を秘めている。アセンブリは、メタゲノミクス実験において最も重要なステップの1つである。アセンブリとは、重複するDNAシーケンスリ…

公共のデータベースからメタデータと生のFastQファイルを取得するnf-coreのfetchngs

2021 11/11 ツイート追加 nf-core/fetchfastqは、公共のデータベースからメタデータと生のFastQファイルを取得するバイオインフォマティクス・パイプラインである。現在、このパイプラインはSRA / ENA / GEOのIDをサポートしている(使用方法のドキュメント…

キュレーションされ、統一したアノテーションが付けられたhuman gutメタゲノムのデータベースGMrepo

GMrepo (data repository for Gut Microbiota)は、キュレートされ、一貫してアノテーションされたヒト腸管メタゲノムのデータベースである。GMrepoの主な目的は、急速に増加しているヒトのメタゲノムデータの再利用とアクセスを容易にすることである。これは…

陸域メタゲノムのキュレーションされたメタデータ公開リポジトリ TerrestrialMetagenomeDB

2022/06/25 タイトル変更 微生物群集の遺伝的可能性に着目したマイクロバイオーム研究(メタゲノム研究)は、微生物生態学の分野では標準的なものとなった。MG-RASTとSequence Read Archive (SRA)という2つの主要なメタゲノムリポジトリには、202,858以上の…

注釈付きで検索可能な微生物のインベントリ The Microbe Directory

次世代シークエンシング技術の出現により、ここ10年で、ヒトのマイクロバイオームから環境(水や土壌)、都市の表面に至るまで、メタゲノムやマイクロバイオーム研究が急増している。これらの研究はすべて、発見された配列をサンプルに見られる分類学的プロ…

インタラクティブなオンラインの系統樹ツール Interactive Tree Of Life (iTOL) v4

2020 7/2 誤字修正 2021 4/27 v5の論文リンク追加 2022 8/27追記 2024/04/21 v6論文追加 系統樹は、生物学やその他の科学分野において重要なツールであり、様々なデータタイプのコンテキスト化としても機能している。このことは、このような系統樹を作成する…

ガン変異のCoMut plotを出力する CoMutPlotter

CoMut plotは、ガン研究のpublicationsで、ガンコホートにおける突然変異の分布を視覚的に要約したものとして広く使用されている。この要約プロットは、遺伝子変異率とサンプルの変異負担を関連する臨床的詳細とともに調べることができ、サンプル間の遺伝子…

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 4/1 タイトル修正、誤字修正 2020 10/24 仮想環境を解くって導入するように修正 2021 5/23 conda => mambaに修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Meta…

データベースのゲノム情報とAMR耐性/感受性情報から細菌のAMR表現型を予測する VAMPr

2020 3/37 タイトル修正 Antimicrobial resistance(AMR)は、公衆衛生に対する脅威の増加である。 AMRを決定する現在の方法は、非効率的な表現型アプローチに依存しており、多くの病原体と抗菌薬の組み合わせのAMRメカニズムの理解が不完全なままとなってい…

SRA/ENA/GEOのメタデータとデータを取得したり、IDを変換するツールキット pysradb

2022/04/20 タイトル修正 いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世…