2019 8/15 リンク追記
2020 1/30論文追記
2020 8/28 実行例を一部修正
2022/04/19 画像追加
リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラインメントとアノテーションを行う広範囲の下流ツールの基礎を形成する。リファレンスアセンブリに依存する多くのツールは、アセンブリに付随する独立したリソースを作成する。たとえば、多くのアライナーはゲノムをハッシュして、アライメント性能を向上させるために使用されるインデックスを作成する必要がある (ref.6–9)。
相互運用可能なリファレンスゲノム資産を共有する能力を向上させるために、著者らは、リファレンスアセンブリリソースを管理するためのよりモジュール化された、カスタマイズ可能でユーザ制御のアプローチを可能にするrefgenieを開発した。 iGenomesと同様に、refgenieはリファレンスゲノムリソースの編成を標準化しているので、その編成を中心にソフトウェアを構築できる。しかしiGenomeとは異なり、refgenieはゲノムアセットの構築も自動化しているため、どのゲノムアセンブリに対しても同じ表現を作成できる。さらに、refgenieはリモートとローカルの両方の個々のリソースへのプログラムによるアクセスを可能にし、次世代の自己完結型パイプラインに適したものにする。 Refgenieは、特定のリファレンスゲノムアセンブリに割り当てることができるファイルを整理することができる。これには、ゲノムインデックスだけでなく、ゲノム配列やアノテーションのような他のリソースタイプも含まれる (ref.11–13)。
本体 GIthub
pip install --user refgenie
export PATH=~/.local/bin:$PATH
export REFGENIE='genome_config.yaml'
refgenie init -c $REFGENIE
#ビルド済みdocker imageもあり(link)
> refgenie -h
$ refgenie -h
version: 0.5.0
usage: refgenie [-h] [-V] [--logdev] [--silent] [--verbosity V]
{pull,list,add,listr,init,build,seek} ...
refgenie - builds and manages reference genome assemblies
positional arguments:
pull Download assets.
list List available local assets.
add Add local asset to the config file.
listr List available remote assets.
init Initialize a genome configuration.
build Build genome assets.
seek Get the path to a local asset.
optional arguments:
-h, --help show this help message and exit
-V, --version show program's version number and exit
--logdev Expand content of logging message format.
--silent Silence logging. Overrides --verbosity.
--verbosity V Set logging level (1-5 or logging module level name)
mkdir genome_folder
refgenie init -c genome_folder/genome_config.yaml
export REFGENIE=genome_folder/genome_config.yaml
> refgenie list
$ refgenie list
refgenie 0.5.0
Local genomes:
Local recipes: TSS_annotation, epilog_index, bismark_bt2_index, bwa_index, bismark_bt1_index, fasta, star_index, gtf_anno, bowtie2_index, hisat2_index, gene_anno, kallisto_index, salmon_index
Local assets:
> refgenie listr
$ refgenie listr
refgenie 0.5.0
Querying available assets from server: http://refgenomes.databio.org/assets
Remote genomes: ERCC92, hg19, hg19_cdna, hg38, hg38_cdna, hg38_chr22, hg38_nc, human_alphasat, human_alu, human_rDNA, human_repeats, m38_cdna, meth_spikein_CEGX, meth_spikein_k1_k3, mm10, mm10_cdna, mouse_chrM2x, rCRSd, rCRSd_3k, rn6
Remote assets:
ERCC92: bowtie2_index, kallisto_indexA seq
hg19: bismark_bt1_index, bismark_bt2_index, bowtie2_index, bwa_index, chrom_sizes, fai, fasta, hisat2_index, star_index
hg19_cdna: chrom_sizes, fai, fasta, kallisto_index
hg38: bismark_bt1_index, bismark_bt2_index, bowtie2_index, bwa_index, chrom_sizes, epilog_index, fai, fasta, gtf_anno, hisat2_index, kallisto_index, salmon_index, star_index
hg38_cdna: bowtie2_index, chrom_sizes, fai, fasta, hisat2_index, kallisto_index, salmon_index
hg38_chr22: bowtie2_index, hisat2_index, kallisto_index
hg38_nc: bowtie2_index
human_alphasat: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
human_alu: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
human_rDNA: bowtie2_index, epilog_index, hisat2_index
human_repeats: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
m38_cdna: bowtie2_index
meth_spikein_CEGX: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index
meth_spikein_k1_k3: bismark_bt1_index, bismark_bt2_index, bowtie2_index, hisat2_index
mm10: bismark_bt1_index, bismark_bt2_index, bowtie2_index, chrom_sizes, epilog_index, fai, fasta, hisat2_index, star_index
mm10_cdna: bowtie2_index, chrom_sizes, fai, fasta, hisat2_index, kallisto_index, salmon_index
mouse_chrM2x: bowtie2_index, hisat2_index, kallisto_index
rCRSd: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
rCRSd_3k: bowtie2_index, kallisto_index
rn6: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
1、refgenie listrで利用可能なゲノムとそのindexファイルを確認する。
refgenie listr
refgenie pull -g hg38 -a bowtie2_index
refgenie pull -g hg38 -a bwa_index fai fasta hisat2_index ensembl_gtf:default gencode_gtf:default
#hg19のcDNA fastaとfai、index
refgenie pull -g hg19_cdna -a fai fasta kallisto_index star_index
#testに便利なhg38 chr22(ベンチマーク論文でも見かける)
refgenie pull -g hg38_chr22 -a hisat2_index
#Mus musculus mm10
refgenie pull --genome mm10 --asset bowtie2_index hisat2_index
refgenie list
refgenie seek -g hg38 -a bowtie2_index
# refgenie seek -g hg38 -a bowtie2_index
refgenie 0.5.0
Refgenie: a reference genome resource manager
Michal Stolarczyk, Vincent P. Reuter, Neal E. Magee, Nathan C. Sheffield
bioRxiv preprint first posted online Jul. 12, 2019
2020 1/30追記
Refgenie: a reference genome resource manager
Michał Stolarczyk, Vincent P Reuter, Jason P Smith, Neal E Magee, Nathan C Sheffield
GigaScience, Volume 9, Issue 2, February 2020
EnsemblのFTPサイト;例えばヒトのhg19ならrelease75が最新。release75 => Homo_sapiens => GTFを選択。