2019 8/15 リンク追記
2020 1/30論文追記
2020 8/28 実行例を一部修正
2022/04/19 画像追加
リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラインメントとアノテーションを行う広範囲の下流ツールの基礎を形成する。リファレンスアセンブリに依存する多くのツールは、アセンブリに付随する独立したリソースを作成する。たとえば、多くのアライナーはゲノムをハッシュして、アライメント性能を向上させるために使用されるインデックスを作成する必要がある (ref.6–9)。
分析パイプラインは通常、データ分析の最初のステップでこれらのアライナーとそのインデックスに依存する。これらのアセンブリリソースは通常多くのパイプラインで共有されているため、研究グループが重複を防ぐためにそれらを中央のフォルダに整理することは一般的である。ディスク容量を節約することに加えて、ソフトウェアは標準的なフォルダ構造の周りに書くことができるので、集中化はリファレンスアセンブリを使用するソフトウェアの共有を単純化する。しかしながら、これは研究グループ間でゲノムリソースを共有するという問題を解決しない。各グループは共有ゲノムリソースを識別するために異なる戦略を使用することがあるため、グループ間でツールを共有するにはそれらを変更する必要があるかもしれない。
この問題に対する1つの解決策は、標準の整理されたリファレンスアセンブリがダウンロード可能なWebアクセス可能なサーバーを用意することである。実際、これが、イルミナのiGenomesプロジェクトの目的である。
iGenomesプロジェクト(link)は人気のゲノムリソース源となっており、研究環境間での分析ツールの共有を非常に単純化している。しかしながら、このアプローチはいくつかの根本的な欠点を被り、いくつかの課題が未解決のままになっている。まず、個々のアセットは一括してのみダウンロードできるが、特定のユースケースでパッケージ内のリソースのごく一部しか必要としない場合はどうなるだろうか?さらに重要なことに、リソースの構築はスクリプト化されていないので、リポジトリがリファレンスや関心のあるリソースを除外している場合、ギャップを埋めるためのプログラム的な方法がない。このようなシナリオでは、ユーザーは手動でゲノム資産を個別に作成して整理しなければならず、グループ間の標準化の強さを失う。
相互運用可能なリファレンスゲノム資産を共有する能力を向上させるために、著者らは、リファレンスアセンブリリソースを管理するためのよりモジュール化された、カスタマイズ可能でユーザ制御のアプローチを可能にするrefgenieを開発した。 iGenomesと同様に、refgenieはリファレンスゲノムリソースの編成を標準化しているので、その編成を中心にソフトウェアを構築できる。しかしiGenomeとは異なり、refgenieはゲノムアセットの構築も自動化しているため、どのゲノムアセンブリに対しても同じ表現を作成できる。さらに、refgenieはリモートとローカルの両方の個々のリソースへのプログラムによるアクセスを可能にし、次世代の自己完結型パイプラインに適したものにする。 Refgenieは、特定のリファレンスゲノムアセンブリに割り当てることができるファイルを整理することができる。これには、ゲノムインデックスだけでなく、ゲノム配列やアノテーションのような他のリソースタイプも含まれる (ref.11–13)。
Refgenieはゲノム関連のリソースを柔軟に管理する。アノテーションからインデックスまで、あらゆる資産タイプを処理できる。サーバーから個々に構築済みのアセットをダウンロードし、カスタム入力用のスクリプトによる構築を可能にする。このようにRefgenieはbiologicalなデータ分析における大きな障害を解決する。
Happy to share our @GigaScience paper introducing Refgenie. Make sure to check out the tool, especially if you regularly use reference genome-related data! @shefflab https://t.co/BIYsALEKBF
— Michał Stolarczyk (@m_stolarczyk) 2020年1月30日
- refgenie docs: https://t.co/XeVRu3bliC
- refgenomes server: https://t.co/zQj4WBPptv
https://refgenie.databio.org/en/latest/
webアクセス
http://refgenie.databio.org/en/latest/
クリックしてダウンロードできるようになっている。
インストール
本体 GIthub
pip install --user refgenie
export PATH=~/.local/bin:$PATH
export REFGENIE='genome_config.yaml'
refgenie init -c $REFGENIE
#ビルド済みdocker imageもあり(link)
> refgenie -h
$ refgenie -h
version: 0.5.0
usage: refgenie [-h] [-V] [--logdev] [--silent] [--verbosity V]
{pull,list,add,listr,init,build,seek} ...
refgenie - builds and manages reference genome assemblies
positional arguments:
{pull,list,add,listr,init,build,seek}
pull Download assets.
list List available local assets.
add Add local asset to the config file.
listr List available remote assets.
init Initialize a genome configuration.
build Build genome assets.
seek Get the path to a local asset.
optional arguments:
-h, --help show this help message and exit
-V, --version show program's version number and exit
--logdev Expand content of logging message format.
--silent Silence logging. Overrides --verbosity.
--verbosity V Set logging level (1-5 or logging module level name)
初回のみ
configuration初期化
mkdir genome_folder
refgenie init -c genome_folder/genome_config.yaml
export REFGENIE=genome_folder/genome_config.yaml
#必要に応じて.bashrcや.profileに記載しておく
> refgenie list
$ refgenie list
refgenie 0.5.0
Local genomes:
Local recipes: TSS_annotation, epilog_index, bismark_bt2_index, bwa_index, bismark_bt1_index, fasta, star_index, gtf_anno, bowtie2_index, hisat2_index, gene_anno, kallisto_index, salmon_index
Local assets:
> refgenie listr
$ refgenie listr
refgenie 0.5.0
Querying available assets from server: http://refgenomes.databio.org/assets
Remote genomes: ERCC92, hg19, hg19_cdna, hg38, hg38_cdna, hg38_chr22, hg38_nc, human_alphasat, human_alu, human_rDNA, human_repeats, m38_cdna, meth_spikein_CEGX, meth_spikein_k1_k3, mm10, mm10_cdna, mouse_chrM2x, rCRSd, rCRSd_3k, rn6
Remote assets:
ERCC92: bowtie2_index, kallisto_indexA seq
hg19: bismark_bt1_index, bismark_bt2_index, bowtie2_index, bwa_index, chrom_sizes, fai, fasta, hisat2_index, star_index
hg19_cdna: chrom_sizes, fai, fasta, kallisto_index
hg38: bismark_bt1_index, bismark_bt2_index, bowtie2_index, bwa_index, chrom_sizes, epilog_index, fai, fasta, gtf_anno, hisat2_index, kallisto_index, salmon_index, star_index
hg38_cdna: bowtie2_index, chrom_sizes, fai, fasta, hisat2_index, kallisto_index, salmon_index
hg38_chr22: bowtie2_index, hisat2_index, kallisto_index
hg38_nc: bowtie2_index
human_alphasat: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
human_alu: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
human_rDNA: bowtie2_index, epilog_index, hisat2_index
human_repeats: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
m38_cdna: bowtie2_index
meth_spikein_CEGX: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index
meth_spikein_k1_k3: bismark_bt1_index, bismark_bt2_index, bowtie2_index, hisat2_index
mm10: bismark_bt1_index, bismark_bt2_index, bowtie2_index, chrom_sizes, epilog_index, fai, fasta, hisat2_index, star_index
mm10_cdna: bowtie2_index, chrom_sizes, fai, fasta, hisat2_index, kallisto_index, salmon_index
mouse_chrM2x: bowtie2_index, hisat2_index, kallisto_index
rCRSd: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
rCRSd_3k: bowtie2_index, kallisto_index
rn6: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index
実行方法
1、refgenie listrで利用可能なゲノムとそのindexファイルを確認する。
refgenie listr
(2022/04/19現在)
2、ダウンロードする。
#例えばhg38ゲノム、indexファイルbowtie2_indexをダウンロード
refgenie pull -g hg38 -a bowtie2_index
#ゲノムも含めて複数同時
refgenie pull -g hg38 -a bwa_index fai fasta hisat2_index ensembl_gtf:default gencode_gtf:default
#hg19のcDNA fastaとfai、index
refgenie pull -g hg19_cdna -a fai fasta kallisto_index star_index
#testに便利なhg38 chr22(ベンチマーク論文でも見かける)
refgenie pull -g hg38_chr22 -a hisat2_index
#Mus musculus mm10
refgenie pull --genome mm10 --asset bowtie2_index hisat2_index
3、ダウンロード(pull)済みindexを確認。
refgenie list
4、ダウンロードしたindexのパスを確認
refgenie seek -g hg38 -a bowtie2_index
# refgenie seek -g hg38 -a bowtie2_index
refgenie 0.5.0
/data/genome_folder/hg38/bowtie2_index
/data/genome_folder/hg38/bowtie2_indexにあることが分かった。
独自のリファレンス配列のデータベースを作成し、pullした既存のものと交換することもできます。詳細はwikiを確認して下さい。
引用
Refgenie: a reference genome resource manager
Michal Stolarczyk, Vincent P. Reuter, Neal E. Magee, Nathan C. Sheffield
bioRxiv preprint first posted online Jul. 12, 2019
2020 1/30追記
Refgenie: a reference genome resource manager
Michał Stolarczyk, Vincent P Reuter, Jason P Smith, Neal E Magee, Nathan C Sheffield
GigaScience, Volume 9, Issue 2, February 2020
2022/04/19
メモ
EnsemblのFTPサイト;例えばヒトのhg19ならrelease75が最新。release75 => Homo_sapiens => GTFを選択。