PyEnsemblは、エキソンや転写産物などのEnsemblリファレンスゲノムメタデータのPythonインターフェイスである。 PyEnsemblは、Ensembl FTPサーバーからGTFおよびFASTAファイルをダウンロードし、ローカルデータベースにロードする。
インストール
#bioconda (link)
conda install -c bioconda -y pyensembl
> pyensembl install -h
$ pyensembl install -h
usage:
Manipulate pyensembl's local cache.
pyensembl {install, delete, delete-sequence-cache} [--release XXX --species human...]
To install particular Ensembl human release(s):
pyensembl install --release 75 77
To install particular Ensembl mouse release(s):
pyensembl install --release 75 77 --species mouse
To delete all downloaded and cached data for a particular Ensembl release:
pyensembl delete-all-files --release 75 --species human
To delete only cached data related to transcript and protein sequences:
pyensembl delete-index-files --release 75
To list all installed genomes:
pyensembl list
To install a genome from source files:
pyensembl install --reference-name "GRCh38" --gtf URL_OR_PATH --transcript-fasta URL_OR_PATH --protein-fasta URL_OR_PATH
positional arguments:
{install,delete-all-files,delete-index-files,list}
"install" will download and index any data that is not
currently downloaded or indexed. "delete-all-files"
will delete all data associated with a genome
annotation. "delete-index-files" deletes all files
other than the original GTF and FASTA files for a
genome. "list" will show you all installed Ensembl
genomes.
optional arguments:
-h, --help show this help message and exit
--overwrite Force download and indexing even if files already
exist locally
ダウンロードディレクトリを指定する。ここでは外付けHDDに指定した。
export PYENSEMBL_CACHE_DIR= /Volumes/8TB-gene/
実行方法
Ensembl release 75と77のマウス(Mus musculus)ゲノムGRCm38をダウンロードする。
pyensembl install --release 75 77 --species mouse
ダウンロードされる。
ダウンロードしたgenomeの確認。
pyensembl list
このツールはpythonのライブラリとしての使用をメインに設計されている。Documentを確認して下さい。
引用
関連