Ensemblの Variant Effect Predictor (VEP) - macでインフォマティクス

2019 11/10 タイトル修正

2020 10/14 dockerリンク追加

　ゲノムまたはエクソームシーケンシングから生じるバリアントデータの分析は、クリニックでの基礎研究からトランスレーショナルゲノミクスまで、生物学の進歩の基本である。機能を調査し、標準化された治療に基づく医療システムから個々の患者をターゲットにした医療システムへと前進するための鍵となる。

　一般的な疾患またはまれな疾患の患者の場合、バリアント分析の潜在的な利点には、患者のケア、監視、および治療結果の改善が含まれる。ガンでは、遺伝子検査のデータを使用してすでに多くの成功がある。たとえば、BRCA突然変異の遺伝が陽性である患者には、選択的予防手術の選択肢がある。 EGFR遺伝子変異を示す肺ガン患者またはトリプルネガティブ乳ガン患者は、成功を改善するために薬物処方を調整することができる[ref.1、2]。

　まれな疾患は、発生率が低く、関連する対立遺伝子の浸透率が不完全であるため、個々に診断することが困難な場合がある。ただし、全ゲノムシーケンス（WGS）または全エクソームシーケンスデータのバリアント解析は、基礎となる遺伝子変異の発見につながる可能性がある[ref.3]。関連する突然変異を特定することは、治療オプションの研究および将来の創薬に有利となる。一方、診断の直接的な利益だけでなくより正確な予後をもたらし、追加の医学的調査の負担を取り除くかもしれない。

　世界中で最も一般的な非感染性疾患は、心血管疾患、ガン、糖尿病である[ref.4]。多くのアレイベースのgenome-wide association studies （GWAS）がリスク遺伝子座を検索しているにもかかわらず、これらの条件における比較的小さな遺伝性成分のみが解明されている[ref.5]。多数のサンプルのWGSが、潜在的な表現型または疾患の関連を持つまれなバリアントを検出するための十分な統計検出力を得るために必要である[ref.6、7]。 WGSの研究では、ゲノムの調節領域および非コード領域の変異も検出される。これらは、形質関連変異の大部分を構成すると考えられており[ref.8]、ガンにも役割を果たす[ref.9]。

　大規模なシーケンシングとバリアント分析の可能性は革新的である。この価値を認識して、アイスランド[ref.10]、英国[ref.11]、および米国[ref.12]で主要なpopulation sequencing initiatives が開始された。他の種では、Genome 10 K [ref.13]、1001 Arabidopsisゲノム[ef.14]、1000雄牛ゲノムプロジェクト[ef.15]などの取り組みが似たような目標を持って、異なる資金調達モデルで動作している。

　DNAシーケンス技術の継続的な改善と、ヒトゲノムあたり約1000ドルの現在のコストにより、大量のゲノム、エクソーム、および解釈が必要なその後のバリアントデータが生じている。一方、機能の結果を決定するための分析のコストは、バリアントの解釈が困難なため、かなり高いままである。例えば、典型的な二倍体ヒトゲノムには、リファレンスゲノム配列に関して約350万のSNVと1000のコピー数変異[ref.16]がある。これらの変異の約20,000〜25,000はタンパク質コーディングであり、そのうち10,000がアミノ酸を変更するが、タンパク質のtruncatingまたはloss of functionの変異は50〜100のみである[ref.16]。多数のバリアントの手動レビューは非実用的で費用がかかり、機能的なアノテーションの欠如やハプロタイプ内の複数のバリアントの解釈など、追加の困難がある。

　バリアントの解釈では、転写物またはタンパク質に対するバリアントの影響が考慮されることがよくある。したがって、転写産物のアノテーションと、タンパク質のコード領域または非コード領域へのバリアントのローカライズに依存している。 Homo sapiensアノテーションには2つの主要な情報源がある：GENCODE [17]およびNational Center for Biotechnology Information（NCBI）のReference Sequence（RefSeq）[ref.18]。両方のトランスクリプトアノテーションは、バリアントのレポートと解釈を変更できるバージョン変更と更新の対象となる。データの再現性のために、トランスクリプトアイソフォームとトランスクリプトバージョンを厳密に追跡する必要があるが、場合によっては、バージョンを含めてもすべての潜在的な誤解を回避するには不十分である[ref.19]。転写産物セットの作成方法には違いがある。GENCODEアノテーションはゲノムベースだが、RefSeq転写産物はリファレンスゲノムからは独立している。 RefSeq転写産物はリファレンスアセンブリのエラーを修正し、生物学的表現が改善された転写産物（GRCh37リファレンスの遺伝子ABO、ACTN3、ALMS1など）を提供する場合があるが、ゲノムと転写産物セットの違いは混乱とエラーを引き起こす可能性がある。 GENCODEの目的は、あらゆる組織および発達段階での各アイソフォームの発現を表す包括的な転写セットを作成することであり、その結果、タンパク質ごとに平均でほぼ4つのアイソフォームが存在している。

　VEPは、家畜の特性分析[ref.24、25]、診療所での患者診断、GWASの研究[ref.26–30]に使用されている。 1000 Genomes [ref.31]やExome Aggregation Consortium（ExAC）[ref.32]など、多数の大規模プロジェクトでの分析に使用されている。 VEPのアノテーションは、GEMINI [ref.33]などのバリアントアノテーションを詳細に調査するためのツールへの入力として使用される。これは、シーケンスバリアントの詳細なアノテーションを必要とするプロジェクトにとって価値のある柔軟なツールである。

　VEPは、2つの広範なカテゴリのゲノムバリアントにアノテーションを付ける。（1）特定の明確な変更（SNV、挿入、欠失、複数の塩基対置換、マイクロサテライト、タンデムリピートを含む）を持つシーケンスバリアント。（2）より大きな構造変異（長さが50ヌクレオチドを超える）、構造変異には、コピー数変化、挿入、欠失が含まれる。すべての入力バリアントについて、VEPは、転写産物、タンパク質、および調節領域への影響に関する詳細なアノテーションを返す。既知または重複するバリアントには、対立遺伝子の頻度と疾患または表現型の情報が含まれる。（以下略）

custom annotations

https://asia.ensembl.org/info/docs/tools/vep/script/vep_custom.html

ローカル版

ubuntu18.04 LTSでテストした（docker使用、ホストOS macos10.14）。

依存

gcc, g++ and make
Perl (>=5.10 recommended, tested on 5.10, 5.14, 5.18, 5.22, 5.26)
Perl libraries Archive::Zip and DBI

#cpanmで導入できる
cpanm Archive::Zip
cpanm DBI

本体　Github

git clone https://github.com/Ensembl/ensembl-vep.git
cd ensembl-vep
perl INSTALL.pl

> ./vep

$ vep

#----------------------------------#

# ENSEMBL VARIANT EFFECT PREDICTOR #

#----------------------------------#

Versions:

ensembl : 101.856c8e8

ensembl-funcgen : 101.b918a49

ensembl-io : 101.943b6c2

ensembl-variation : 101.851c7e0

ensembl-vep : 101.0

Help: dev@ensembl.org , helpdesk@ensembl.org

Twitter: @ensembl

http://www.ensembl.org/info/docs/tools/vep/script/index.html

Usage:

./vep [--cache|--offline|--database] [arguments]

Basic options

=============

--help Display this message and quit

-i | --input_file Input file

-o | --output_file Output file

--force_overwrite Force overwriting of output file

--species [species] Species to use [default: "human"]

--everything Shortcut switch to turn on commonly used options. See web

documentation for details [default: off]

--fork [num_forks] Use forking to improve script runtime

For full option documentation see:

http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html

dockerイメージ（dockerhub）

docker pull ensemblorg/ensembl-vep:latest

テストラン

git clone https://github.com/Ensembl/ensembl-vep.git
cd ensembl-vep/examples/
#arabidopsis thaliana
vep -i arabidopsis_thaliana.TAIR10.vcf -o out.txt --species arabidopsis_thaliana --database --genome

#Homo sapiens (runにはおよそ1hほど必要)
vep -i homo_sapiens_GRCh37.vcf -o output1.txt --database
vep -i homo_sapiens_GRCh38.vcf -o output2.txt --database

--cache Enables use of the cache. Add --refseq or --merged to use the refseq or merged cache, (if installed).
--database Enable VEP to use local or remote databases.
--genomes Override the default connection settings with those for the Ensembl Genomes public MySQL server. Required when using any of the Ensembl Genomes species. Not used by default
--offline Enable offline mode. No database connections will be made, and a cache file or GFF/GTF file is required for annotation. Add --refseq to use the refseq cache (if installed). Not used by default

出力(arabidopsis thaliana)

f:id:kazumaxneo:20201014105443p:plain

out.txt

f:id:kazumaxneo:20201014105522p:plain

out.txt_summary.html

f:id:kazumaxneo:20201014105552p:plain

オプションなどの詳細は下記 URLを確認して下さい。

https://asia.ensembl.org/info/docs/tools/vep/script/vep_tutorial.html

webサービス

http://asia.ensembl.org/info/genome/variation/tools/variant_tools.htmlのVariant Effect Predictor (VEP)を選択する。

Variant Effect Predictor (VEP)

http://asia.ensembl.org/Multi/Tools/VEP?db=core

リファレンスを選ぶ。

f:id:kazumaxneo:20191105181931p:plain

ゲノムはEnsemblの最新リリースに基づいている。ヒトゲノムであればGRCh38で、GRCh37は旧ページから使う。

VCFを指定する。ここではGRCh38アセンブリをリファレンスとし、freebayesを使ってNA12877のvariant callを行なったVCFを選んだ。

f:id:kazumaxneo:20191105182204p:plain

結果

レポートが表示される。

f:id:kazumaxneo:20191105180237p:plain

バリアントエフェクトのカラムは、リンク先から詳細を調べることができる。

f:id:kazumaxneo:20191106115031p:plain

例えばrs367896724（dbSNP）をクリック

f:id:kazumaxneo:20191106115341p:plain

Linkage disequilibrium (連鎖不平衡)

Population genetics

rs367896724 INDEL

Sample genotypes

Genes and regulation

Context

Flanking sequence

Variant Effect Predictorに戻る。テーブルはその場でソートしたりフィルタリングできる。

f:id:kazumaxneo:20191105180240p:plain

引用

The Ensembl Variant Effect Predictor

William McLaren, Laurent Gil, Sarah E. Hunt, Harpreet Singh Riat, Graham R. S. Ritchie, Anja Thormann, Paul Flicek, Fiona Cunningham
Genome Biology volume 17, Article number: 122 (2016)