macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Ensemblのゲノムをダウンロードする pyensembl

 

PyEnsemblは、エキソンや転写産物などのEnsemblリファレンスゲノムメタデータPythonインターフェイスである。 PyEnsemblは、Ensembl FTPサーバーからGTFおよびFASTAファイルをダウンロードし、ローカルデータベースにロードする。

 

インストール

Github

#bioconda (link)
conda install -c bioconda -y pyensembl

pyensembl install -h

$ pyensembl install -h

usage: 

Manipulate pyensembl's local cache.

 

    pyensembl {install, delete, delete-sequence-cache} [--release XXX --species human...]

 

To install particular Ensembl human release(s):

    pyensembl install --release 75 77

 

To install particular Ensembl mouse release(s):

    pyensembl install --release 75 77 --species mouse

 

To delete all downloaded and cached data for a particular Ensembl release:

    pyensembl delete-all-files --release 75 --species human

 

To delete only cached data related to transcript and protein sequences:

    pyensembl delete-index-files --release 75

 

To list all installed genomes:

    pyensembl list

 

To install a genome from source files:

    pyensembl install  --reference-name "GRCh38"  --gtf URL_OR_PATH  --transcript-fasta URL_OR_PATH  --protein-fasta URL_OR_PATH

 

positional arguments:

  {install,delete-all-files,delete-index-files,list}

                        "install" will download and index any data that is not

                        currently downloaded or indexed. "delete-all-files"

                        will delete all data associated with a genome

                        annotation. "delete-index-files" deletes all files

                        other than the original GTF and FASTA files for a

                        genome. "list" will show you all installed Ensembl

                        genomes.

 

optional arguments:

  -h, --help            show this help message and exit

  --overwrite           Force download and indexing even if files already

                        exist locally

ダウンロードディレクトリを指定する。ここでは外付けHDDに指定した。

export PYENSEMBL_CACHE_DIR= /Volumes/8TB-gene/ 

 

実行方法

Ensembl release 75と77のマウス(Mus musculus)ゲノムGRCm38をダウンロードする。

pyensembl install --release 75 77 --species mouse

ダウンロードされる。

f:id:kazumaxneo:20191219094520p:plain

 

 ダウンロードしたgenomeの確認。

pyensembl list

 

 

このツールはpythonのライブラリとしての使用をメインに設計されている。Documentを確認して下さい。 

引用

GitHub - openvax/pyensembl: Python interface to access reference genome features (such as genes, transcripts, and exons) from Ensembl

 

関連