macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ヒトとマウスの様々なアライナー用indexやアノテーションをダウンロードできる Refgenie

 2019 8/15 リンク追記

2020 1/30論文追記

2020 8/28 実行例を一部修正

2022/04/19 画像追加

 

 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラインメントとアノテーションを行う広範囲の下流ツールの基礎を形成する。リファレンスアセンブリに依存する多くのツールは、アセンブリに付随する独立したリソースを作成する。たとえば、多くのアライナーはゲノムをハッシュして、アライメント性能を向上させるために使用されるインデックスを作成する必要がある (ref.6–9)。
 分析パイプラインは通常、データ分析の最初のステップでこれらのアライナーとそのインデックスに依存する。これらのアセンブリリソースは通常多くのパイプラインで共有されているため、研究グループが重複を防ぐためにそれらを中央のフォルダに整理することは一般的である。ディスク容量を節約することに加えて、ソフトウェアは標準的なフォルダ構造の周りに書くことができるので、集中化はリファレンスアセンブリを使用するソフトウェアの共有を単純化する。しかしながら、これは研究グループ間でゲノムリソースを共有するという問題を解決しない。各グループは共有ゲノムリソースを識別するために異なる戦略を使用することがあるため、グループ間でツールを共有するにはそれらを変更する必要があるかもしれない。
 この問題に対する1つの解決策は、標準の整理されたリファレンスアセンブリがダウンロード可能なWebアクセス可能なサーバーを用意することである。実際、これが、イルミナのiGenomesプロジェクトの目的である。
 iGenomesプロジェクト(link)は人気のゲノムリソース源となっており、研究環境間での分析ツールの共有を非常に単純化している。しかしながら、このアプローチはいくつかの根本的な欠点を被り、いくつかの課題が未解決のままになっている。まず、個々のアセットは一括してのみダウンロードできるが、特定のユースケースでパッケージ内のリソースのごく一部しか必要としない場合はどうなるだろうか?さらに重要なことに、リソースの構築はスクリプト化されていないので、リポジトリがリファレンスや関心のあるリソースを除外している場合、ギャップを埋めるためのプログラム的な方法がない。このようなシナリオでは、ユーザーは手動でゲノム資産を個別に作成して整理しなければならず、グループ間の標準化の強さを失う。
 相互運用可能なリファレンスゲノム資産を共有する能力を向上させるために、著者らは、リファレンスアセンブリリソースを管理するためのよりモジュール化された、カスタマイズ可能でユーザ制御のアプローチを可能にするrefgenieを開発した。 iGenomesと同様に、refgenieはリファレンスゲノムリソースの編成を標準化しているので、その編成を中心にソフトウェアを構築できる。しかしiGenomeとは異なり、refgenieはゲノムアセットの構築も自動化しているため、どのゲノムアセンブリに対しても同じ表現を作成できる。さらに、refgenieはリモートとローカルの両方の個々のリソースへのプログラムによるアクセスを可能にし、次世代の自己完結型パイプラインに適したものにする。 Refgenieは、特定のリファレンスゲノムアセンブリに割り当てることができるファイルを整理することができる。これには、ゲノムインデックスだけでなく、ゲノム配列やアノテーションのような他のリソースタイプも含まれる (ref.11–13)。
 Refgenieはゲノム関連のリソースを柔軟に管理する。アノテーションからインデックスまで、あらゆる資産タイプを処理できる。サーバーから個々に構築済みのアセットをダウンロードし、カスタム入力用のスクリプトによる構築を可能にする。このようにRefgenieはbiologicalなデータ分析における大きな障害を解決する。

 

wiki

https://refgenie.databio.org/en/latest/

webアクセス

http://refgenie.databio.org/en/latest/

クリックしてダウンロードできるようになっている。

f:id:kazumaxneo:20190815220623p:plain

 

 

 

インストール

本体 GIthub

pip install --user refgenie
export PATH=~/.local/bin:$PATH

export REFGENIE='genome_config.yaml'
refgenie init -c $REFGENIE

#ビルド済みdocker imageもあり(link

refgenie -h

$ refgenie -h

version: 0.5.0

usage: refgenie [-h] [-V] [--logdev] [--silent] [--verbosity V]

                {pull,list,add,listr,init,build,seek} ...

 

refgenie - builds and manages reference genome assemblies

 

positional arguments:

  {pull,list,add,listr,init,build,seek}

    pull                Download assets.

    list                List available local assets.

    add                 Add local asset to the config file.

    listr               List available remote assets.

    init                Initialize a genome configuration.

    build               Build genome assets.

    seek                Get the path to a local asset.

 

optional arguments:

  -h, --help            show this help message and exit

  -V, --version         show program's version number and exit

  --logdev              Expand content of logging message format.

  --silent              Silence logging. Overrides --verbosity.

  --verbosity V         Set logging level (1-5 or logging module level name)

 

https://refgenie.databio.org

 

初回のみ

configuration初期化

mkdir genome_folder
refgenie init -c genome_folder/genome_config.yaml
export REFGENIE=genome_folder/genome_config.yaml
#必要に応じて.bashrcや.profileに記載しておく

> refgenie list

$ refgenie list

refgenie 0.5.0

Local genomes: 

Local recipes: TSS_annotation, epilog_index, bismark_bt2_index, bwa_index, bismark_bt1_index, fasta, star_index, gtf_anno, bowtie2_index, hisat2_index, gene_anno, kallisto_index, salmon_index

Local assets:

> refgenie listr

$ refgenie listr

refgenie 0.5.0

Querying available assets from server: http://refgenomes.databio.org/assets

Remote genomes: ERCC92, hg19, hg19_cdna, hg38, hg38_cdna, hg38_chr22, hg38_nc, human_alphasat, human_alu, human_rDNA, human_repeats, m38_cdna, meth_spikein_CEGX, meth_spikein_k1_k3, mm10, mm10_cdna, mouse_chrM2x, rCRSd, rCRSd_3k, rn6

Remote assets:

  ERCC92: bowtie2_index, kallisto_indexA seq

  hg19: bismark_bt1_index, bismark_bt2_index, bowtie2_index, bwa_index, chrom_sizes, fai, fasta, hisat2_index, star_index

  hg19_cdna: chrom_sizes, fai, fasta, kallisto_index

  hg38: bismark_bt1_index, bismark_bt2_index, bowtie2_index, bwa_index, chrom_sizes, epilog_index, fai, fasta, gtf_anno, hisat2_index, kallisto_index, salmon_index, star_index

  hg38_cdna: bowtie2_index, chrom_sizes, fai, fasta, hisat2_index, kallisto_index, salmon_index

  hg38_chr22: bowtie2_index, hisat2_index, kallisto_index

  hg38_nc: bowtie2_index

  human_alphasat: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index

  human_alu: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index

  human_rDNA: bowtie2_index, epilog_index, hisat2_index

  human_repeats: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index

  m38_cdna: bowtie2_index

  meth_spikein_CEGX: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index

  meth_spikein_k1_k3: bismark_bt1_index, bismark_bt2_index, bowtie2_index, hisat2_index

  mm10: bismark_bt1_index, bismark_bt2_index, bowtie2_index, chrom_sizes, epilog_index, fai, fasta, hisat2_index, star_index

  mm10_cdna: bowtie2_index, chrom_sizes, fai, fasta, hisat2_index, kallisto_index, salmon_index

  mouse_chrM2x: bowtie2_index, hisat2_index, kallisto_index

  rCRSd: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index

  rCRSd_3k: bowtie2_index, kallisto_index

  rn6: bismark_bt1_index, bismark_bt2_index, bowtie2_index, epilog_index, hisat2_index

 

 

実行方法

 1、refgenie listrで利用可能なゲノムとそのindexファイルを確認する。

refgenie listr

(2022/04/19現在)

 

 

2、ダウンロードする。

#例えばhg38ゲノム、indexファイルbowtie2_indexをダウンロード
refgenie pull -g hg38 -a bowtie2_index

#ゲノムも含めて複数同時
refgenie pull -g hg38 -a bwa_index fai fasta hisat2_index ensembl_gtf:default gencode_gtf:default

#hg19のcDNA fastaとfai、index
refgenie pull -g hg19_cdna -a fai fasta kallisto_index star_index

#testに便利なhg38 chr22(ベンチマーク論文でも見かける)
refgenie pull -g hg38_chr22 -a hisat2_index

#Mus musculus mm10
refgenie pull --genome mm10 --asset bowtie2_index hisat2_index

 

3、ダウンロード(pull)済みindexを確認。

refgenie list

 

4、ダウンロードしたindexのパスを確認

refgenie seek -g hg38 -a bowtie2_index

# refgenie seek -g hg38 -a bowtie2_index 

refgenie 0.5.0

/data/genome_folder/hg38/bowtie2_index

/data/genome_folder/hg38/bowtie2_indexにあることが分かった。 

 

独自のリファレンス配列のデータベースを作成し、pullした既存のものと交換することもできます。詳細はwikiを確認して下さい。

引用

Refgenie: a reference genome resource manager
Michal Stolarczyk, Vincent P. Reuter, Neal E. Magee, Nathan C. Sheffield

bioRxiv preprint first posted online Jul. 12, 2019

 

2020 1/30追記

Refgenie: a reference genome resource manager
Michał Stolarczyk, Vincent P Reuter, Jason P Smith, Neal E Magee, Nathan C Sheffield 
GigaScience, Volume 9, Issue 2, February 2020

 

2022/04/19

メモ

EnsemblFTPサイト;例えばヒトのhg19ならrelease75が最新。release75 => Homo_sapiens => GTFを選択。

ftp://ftp.ensembl.org/pub/