微生物の生息環境と生活様式の語彙を記述する microntology

2026 ontology Bioinformatics database metadata SRA ENA amplicon sequence

微生物の生態と進化に関するデータ駆動型研究は、厳選され統合された語彙に基づいた、微生物生息環境の高品質な記述に依存している｡本研究では、微生物の生息環境と生活様式を記述するための148の用語からなる実用的な統制語彙であるmicrontology v1.0を発表…

2026-05-08

細菌ゲノムのメタデータを自動で取得して分析する FetchM

2026 Bioinformatics Advances metagenome SRA metadata download NCBI Bacterial infections bacteria

大規模な細菌比較ゲノム解析には、ゲノムアセンブリとその生物学的コンテキストを記述する包括的なメタデータが必要である。NCBI Genomeにはアセンブリが、BioSampleには採取日、宿主、場所などの重要なコンテキストフィールドが保存されているが、統合され…

2025-10-17

ペタバイト規模の公共配列リポジトリへの効率的かつ正確な検索を行う MetaGraph

2025 Nature metagenome SRA 高速なツール database web tool Marine Metagenomics

公開リポジトリで利用可能な生物学的シーケンスデータの量は急速に増加しており、生物医学にとって重要な資源を形成している。しかし、これらのデータを効率的かつ正確に全文検索可能にすることは依然として課題である。本研究では、大規模なシーケンスセッ…

2025-09-09

全SRAデータをインデックス化して塩基/タンパク質の配列検索を可能にした LoganとLogan Search

2025 Preprint SRA metagenome database

2025/09/09 タイトル修正生命の多様性の広がりは計り知れないが、公開されている核酸配列データは地球規模での遺伝的多様性の分散と進化を垣間見せる。しかし配列データの急速な増加と蓄積は、効率的な解析能力を凌駕している。自由に利用可能なシーケンス…

2025-05-03

fastqファイルを迅速かつ効率的に取得する ngsfetch

fasta/fastqの操作 download DRA SRA GEO ENA 高速なツール

ffqとaria2を使ってfastqファイルを取得するためのユーティリティ。大規模なデータセットを迅速かつ効率的にダウンロードできるよう設計されている。GEO、SRA、EMBL-EBIのENA、DDBJのDRAなどのデータのダウンロードに対応している。特徴（レポジトリより） …

2024-05-31

公開されているシークエンシングデータを取得する統合ツール iSeq

download 2024 Preprint ENA SRA DRA

ハイスループットシーケンス技術（Next Generation Sequencing; NGS）は、多様な生物学的探究に取り組む研究者によってますます活用されるようになっている。最新のシーケンシングの驚くべきスケールと効率を活用し、ゲノム解析からタンパク質-核酸相互作用…

2024-04-19

NCBI SRAで検索する時のtips

NCBI tips SRA

NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。 metagenomeと検索してみると4,566,384件ヒットした（2024年4月実行）。 metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒッ…

2023-07-04

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

2023-05-25

latf-loadコマンド

tips fasta/fastqの操作 DRA SRA

シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…

2023-05-22

GEOとSRAからデータおよびメタデータをダウンロードする GEOfetch

2023 Bioinformatics GEO metadata download SRA

Gene Expression Omnibusは、二次解析のための重要な生物学的データ源となっている。しかし、Gene Expression Omnibus (GEO)からデータやメタデータを標準的なアノテーションフォーマットでダウンロードするシンプルでプログラム的な方法は存在しない。GEOfe…

2022-09-20

NCBI SRA Run Selectorを使う

tips download NCBI SRA

2022/11/26 追記 SRA Run Selectorは、SRAに保存されている大規模なランのセットを取り出し、どのランを解析に使用するかを絞り込み、結果をメタデータとしてダウンロードすることができる。 NCBI-Hackathons/SRA Run Selector Tutorial https://github.com/…

2022-04-18

シークエンスリードアーカイブからメタデータ情報をJSON形式で取得する ffq

SRA download metadata GEO 2022 Preprint

2022/05/20 論文引用タイトルの通りのツール。簡単に紹介します。 `ffq` (Fetch FastQ) is a new command line tool that makes it easier to find #sequencing data from the SRA / GEO / ENA. Importantly `ffq` does not download files, just file meta…

2022-02-08

公開されている大規模なRNA-seqデータセットを扱う recount3

2021 Genome Biology human genome human whole genome mouse GEO Bioconductor SRA download shiny RNA seq

新しいMonorail解析パイプラインによって一様に処理された750,000以上の一般に公開されているヒトとマウスのRNAシーケンス（RNA-seq）サンプルからなるリソース、recount3を紹介する。データへのアクセスを容易にするために、recount3およびsnapcountのR/Bio…

2022-02-02

Serratus Explorer

SRA database 2022 Viruses Nature

公開データベースには惑星規模の核酸配列コレクションが含まれているが、このコーパスの効率的な検索方法がないため、体系的な探索が阻害されている。このデータベースは（本稿執筆時点で）20ペタベースを超え、指数関数的に増加している (ref.1)。そこで、…

2022-01-31

植物の公共RNA-Seqライブラリを分析するためのユーザーフレンドリ―なデータベース PPRD

RNA seq database SRA plant GEO IGV co-expression 結果の視覚化 (visualization)

ハイスループットRNA-sequencing（RNA-seq）は、その低コストと高いカバレッジにより、ここ10年で最も人気のある遺伝子発現プロファイリング技術になった。その結果、植物界からのRNA-seqライブラリの数は近年飛躍的に増加している。トウモロコシ、イネ、ダ…

2021-08-18

公開メタゲノムに対する高速なアミノ酸配列の類似性検索サービス PZLAST

高速なツール web tool metagenome 2021 metadata 結果の視覚化 (visualization) Marine Metagenomics ヒト腸内 (human gut) ヒト口腔 (human oral) SRA

公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以…

2021-06-14

公共のデータベースからメタデータと生のFastQファイルを取得するnf-coreのfetchngs

nextflow SRA download nf-core metadata

2021 11/11 ツイート追加 nf-core/fetchfastqは、公共のデータベースからメタデータと生のFastQファイルを取得するバイオインフォマティクス・パイプラインである。現在、このパイプラインはSRA / ENA / GEOのIDをサポートしている（使用方法のドキュメント…

2021-05-20

ゲノムスケールのデータを集めた公開リポジトリ Genome Warehouse

2021 Preprint database SRA

Genome Warehouse (GWH) は、幅広い種のゲノムアセンブリデータを収蔵する公開リポジトリであり、ゲノムデータの提出、保存、公開、共有のための一連のウェブサービスを提供している。China National Center for Bioinformation (CNCB, https://bigd.big.ac.…

2021-02-21

陸域メタゲノムのキュレーションされたメタデータ公開リポジトリ TerrestrialMetagenomeDB

SRA metadata metagenome database web tool 2020 Nucleic Acids Research

2022/06/25 タイトル変更微生物群集の遺伝的可能性に着目したマイクロバイオーム研究（メタゲノム研究）は、微生物生態学の分野では標準的なものとなった。MG-RASTとSequence Read Archive (SRA)という2つの主要なメタゲノムリポジトリには、202,858以上の…

2020-04-10

全工程が自動化された高速なRNA seq解析webサービス RaNA-Seq（60以上のモデル生物に対応）

2020 Bioinformatics RNA seq RNAseqの定量 web tool automated pipeline KEGG pathway Pathway GO enrichment analysis 高速なツール SRA 初心者向け

2020 4/10 タイトル修正、説明と図追加 RaNA-Seqは、RNA-Seqデータを迅速に解析・可視化するためのクラウドプラットフォームである。FASTQファイルの定量、品質管理指標の計算、発現変動遺伝子の解析の実行、機能解析による結果の説明を可能にすることで、数…

2020-04-01

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 Bioinformatics SRA download NCBI metagenome metadata

2020 4/1 タイトル修正、誤字修正 2020 10/24 仮想環境を解くって導入するように修正 2021 5/23 conda => mambaに修正 2025/02/14 docker image追記ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequen…

2019-12-22

edirectとSRA toolsを組み合わせてBioprojectのfastqを全てダウンロードする

SRA download

タイトルの通り、Bioprojectの全fastqをダウンロードする。インストール ubuntu18.04LTSでテストした。 Entrez Directのインストール apt update && apt install -y ncbi-entrez-direct#condaconda install entrez-direct fasterq-dumpは以前紹介しています…

2019-06-26

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 Microbiome (Journal) workflow manager automatic pipeline metagenome contamination low complexity error correction quality check filtering assembly SRA download mapping 高速なツール

2019 6/26 誤字修正メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

2019-06-03

転写領域アノテーションのためSRAのデータをサンプリングしてマッピング率等を評価する VARUS

2019 Preprint SRA download RNA seq

2019 6/3 何も表示されないバグを修正非常に大量の次世代シークエンシング（NGS）データがNCBIのシークエンスリードアーカイブ（SRA）[ref.1]やENA[ref.2]などの公共のデータベースに保管されている。これを書いている時点で、2019年3月に、SRAは約2.7 * 10…

2019-05-01

SRAのRNA seqデータを素早く比較・分析する Digital expression explorer 2（手持ちのデータにも対応）

2019 GigaScience plant bacteria human genome fish animal insect database SRA RNA seq web tool インフォマティクス解析をサポートするツール高速なツール C. elegans D. melanogaster

2021 1/9 ツイート追記 10年前の最初の記述以来、RNAシーケンス（RNA-seq）はトランスクリプトームにおける強力な方法となり、非常に正確な遺伝子発現の定量を可能にした[ref.1]。シークエンシングのコストが下がるにつれて、RNA seqのデータは科学文献でよ…

2019-04-19

SRA Toolkitのfasta-dumpを高速化した fasterq-dump

download SRA 高速なツールインフォマティクス解析をサポートするツール

2019 4/29 複数ファイルダウンロード例、8/13 ダウンロード例のコード修正、12/18 インストールエラー修正、12/21 実行例追記 2020 1/21 ダウンロード例のコード修正、4/1 リンク追加 2023/07/22 docker イメージ例追加タイトルの通りのコマンド。使い方だ…

2019-04-05

SRA/ENA/GEOのメタデータとデータを取得したり、IDを変換するツールキット pysradb

2019 Preprint SRA metadata download 高速なツール format conversion GEO

2022/04/20 タイトル修正いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA（Sequencing Read Archive）[ref.4]からメタデータと生データを入手することは、公開されている次世…

2018-11-25

SRA Toolkitのfastq-dumpを並列実行して高速化する parallel-fastq-dump

download インフォマティクス解析をサポートするツール高速なツール tips SRA

NCBIのfastq-dumpはリソース（ネットワーク、IO、CPU）が速くても、時には非常に遅くなることがある（Githubのprotipを参照）。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション（-Nと-X）があるため、このツールparallel-fastq-dumpは作業を要…

2018-06-12

fastq-dumpを並列化した pfastq-dump

tips fasta/fastqの操作 download 高速なツール SRA

2018 11/25 誤字修正 2019 12/18 インストール手順修正、コマンド実行手順追加 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive（wiki）からダウンロード…

2018-05-30

メタゲノムのリードの系統アサインメントを行う Centrifuge

metagenome 生物種の推定 (taxonomic profiling) 2016 Genome Research taxonomic assignment abundance estimation in metagenomics data SRA

2019 1/17 タイトル修正 2019 4/16 condaインストール 2019 4/19 ダウンロード方法追記 2019 5/9 パラメータ追記 2019 5/13 test追加 2020 4/16 help更新アーキアやバクテリアなどの微生物は、土壌や海洋から温泉や深海に至るまで、事実上あらゆる場所で発…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

SRA