macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

シークエンスリードアーカイブからメタデータ情報をJSON形式で取得する ffq

2022/05/20 論文引用

 

タイトルの通りのツール。簡単に紹介します。

 

 

インストール

ubuntu18でmambaを使ってインストールした。

本体 Github

#conda (bioconda)
mamba install -c bioconda ffq -y

#pip (pypi)
pip install ffq

> ffq -h

usage: ffq [-h] [-o OUT] [-t TYPE] [--split] [--verbose] IDs [IDs ...]

 

ffq 0.0.4: Fetch run information from the European Nucleotide Archive (ENA).

 

positional arguments:

  IDs         Can be a SRA / ENA Run Accessions or Study Accessions, GEO Study Accessions, DOIs or paper titles.

 

optional arguments:

  -h, --help  Show this help message and exit

  -o OUT      Path to JSON file to write run information. If `--split` is used, path to directory in which to place JSON files. (default: standard out)

  -t TYPE     The type of term used to query data. Can be one of SRR, ERR, DRR, SRP, ERP, DRP, GSE, DOI (default: SRR)

  --split     Split runs into their own files.

  --verbose   Print debugging information



実行法表

SRRで始まるリードアーカイブの識別子を指定する。

ここではHuman Microbiome Project2 (HMP2) のstool sampleのリードアーカイブを指定。

ffq SRR6664502

f:id:kazumaxneo:20220418123405p:plain

jqなどと組み合わせれば特定の情報だけ取得できます(参考)。

利用できるのは 'SRR', 'ERR', 'DRR', 'SRP', 'ERP', 'DRP', 'GSE', 'DOI'

 

複数指定

ffq [SRR1] [SRR2] ... 

 

引用

GitHub - pachterlab/ffq: A command line tool that makes it easier to find sequencing data from the SRA / GEO / ENA.

 

自分がこのツールを知るきっかけになったツイートです。

 

2022/05/21

Metadata retrieval from genomics database with ffq
Ángel Gálvez-Merchán,  Kyung Hoi (Joseph) Min,  Lior Pachter,  A. Sina Booeshaghi

bioRxiv, Posted May 19, 2022