macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(ヒト)バリアントの影響を評価する dbNSFP v4

2022/1/5 追記

 

 全ゲノムシークエンシング(WES)や全ゲノムシークエンシング(WGS)は、研究や臨床の場でヒトの疾患研究にますます利用されるようになってきている。その結果、健康な人からメンデル病や複雑な疾患を持つ人まで、DNA配列データの津波を目の当たりにするようになった。シーケンシングで同定された多数の DNA バリアントから疾患の原因となるバリアントや疾患リスクに関連するバリアントを特定するには、過剰な時間と労力が必要である。この困難な作業を達成するため、研究者たちは、現在の知識や予測モデルに基づいてバリアントをフィルタリングまたは優先順位付けする機能的アノテーションに頼ってきた。より詳細には、機能アノテーションは一般的なアノテーションと機能予測に分けることができる:前者は、そのバリアントが非同義SNVであるかどうかなど、潜在的な機能に間接的に関連するバリアントの質的または記述的なアノテーションを提供し、後者は一般的に統計モデルに基づいてバリアントの直接的な定量的またはイエスかノーかの劇物性予測を提供する。近い将来、高速で包括的な機能アノテーションツールがさらに重要になると考えられるが、それは、DNAシーケンシングのコストの低下、精密医療の発展と実践、小規模ラボでのWESとWGSの適応という3つのトレンドが絡み合っているからである。

 UCSC Genome BrowserのVariant Annotation Integrator、EnsemblのVariant Effect Predictor (VEP)、ANNOVAR、SnpEffなど、大規模なDNA配列データに対応したアノテーションツールがいくつか提供されている。これらのほとんどは、与えられた遺伝子モデルに基づく一般的なアノテーションに焦点を当てている。遺伝子モデルに基づくアノテーションは便利であるが、医学遺伝学者や遺伝疫学者が使用する機能的アノテーションリソースは他にもあり、特にバリアントの機能的予測、保存情報、予測されたプロモーター、エンハンサー、エピゲノムマーカーなどが含まれている。研究者が直面しているもう一つの課題は、異なる遺伝子モデルベースのアノテーションツールにはそれぞれ長所と短所があり、結果が一致しないことがあるということである。そのため、バリアントの完全な解釈のためには、複数のデータベースにまたがるツールからアノテーションを取得することが提案されている。以前、著者らはメンデル病の最上位候補であるnon-synonymous SNVs(nsSNVs)とsplice siteSNVs(ssSNVs)の機能アノテーションの「ワンストップショップ」を提供するために dbNSFP version 1 [ref.11], version 2 [ref.12], version 3 [ref.13]を開発した。本研究では、ヒトのリファレンス配列と、各SNVの多重欠失性予測とアノテーションに基づいて、可能性のある全てのnsSNVとssSNVを収集した。

 ここでは、バージョン3.0から現在のバージョン4.1までのdbNSFPの主なアップデートを報告する。コアとなる SNV は、ヒトリファレンス配列バージョン hg38 と GENCODE バージョン 29 [ref.14] に基づいて再構築されている。バージョン3.0と比較して、dbNSFP v4. 1では、18の削除性予測スコア(BayesDel_addAFおよびBayesDel_noAF [ref.15]、CADD_hg19 [ref.16]、ClinPred [ref.17]、DEOGEN2 [ref.18]、EigenおよびEigen PC [ref.19]、FATHMM-XF [ref.20]、GenoCanyon [ref.21]、LINSIGHT [ref.22]、LIST-S2 [ref.23]、M-CAP [ref.24]、MPC [ref.25]、MutPred [ref.26]、MVP [ref.27])が追加された。PrimateAI [ref.28]、REVEL [ref.29]、SIFT4G [ref.30])、機能喪失予測スコア1点(ALoFT [ref.31])、保存スコア3点(phyloP17way_primate [ref.32]、phastCons17way_primate [ref.33]、bStatistic [ref.34])の合計46点となった(追加ファイル1. 表S1)。) 他にも多くの機能アノテーションリソースが追加・更新されている。splice interrupting SNVを予測するための2つの付属データベースであるdbscSNV [ref.35]とSPIDEX [ref.36]の以前にサポートされていたクエリに加えて、ダウンロード版のコンパニオンクエリプログラムは、スプライスサイトの利得と損失を予測するためのサードパーティのデータベースであるSpliceAI [ref.37]と、マイクロRNA標的部位SNVとその機能予測のための包括的なデータベースであるdbMTS [ref.38]のクエリのサポートを追加した。さらに重要なことは、機能予測を可能な限りトランスクリプト特異的にすること、遺伝子ごとに複数のアイソフォームの中から適切なトランスクリプトを選択できるようにトランスクリプトアノテーションを提供すること、HGVS(Human Genome Variation Society)のc. 医学遺伝学の文献で報告されている変異候補の検索を容易にするために、SNVのc.とp.のプレゼンテーションを提供すること、 ダウンロード版の検索用のグラフィックユーザーインターフェースを提供すること、およびバイオインフォマティクスのトレーニングを受けていない研究者のためのウェブサービスを提供することである。

 

webサービス

http://database.liulab.science/dbNSFPにアクセスする。Academicを選択した。

f:id:kazumaxneo:20201223004212p:plain

 

dbNSFPは、ヒトゲノム中のすべての潜在的な非同義一ヌクレオチドバリアント(nsSNVs)の機能予測とアノテーションのために開発されたデータベースである。現在のバージョンはGencode release 29 / Ensembl version 94に基づいており、合計84,013,490個のnsSNVsとssSNVs(スプライシングサイトSNV)が含まれている。37の予測アルゴリズム(SIFT、SIFT4G、Polyphen2-HDIV、Polyphen2-HVAR、LRT、MutationTaster2、MutationAssessor、FATHMM、MetaSVM、MetaLR、CADD、CADD_hg19、VEST4、PROVEAN)からの予測スコアをコンパイルしています。FATHMM-MKLコーディング、FATHMM-XFコーディング、fitCons×4、LINSIGHT、DANN、GenoCanyon、Eigen、Eigen-PC、M-CAP、REVEL、MutPred、MVP、MPC、PrimateAI、GEOGEN2、BayesDel_addAF、BayesDel_noAF、ClinPred、LIST-S2、ALoFT)。9個の保存スコア(PhyloP×3、phastCons×3、GERP++、SiPhy、bStatistic)と、1000 Genomes Projectフェーズ3データ、UK10Kコホートデータ、ExACコンソーシアムデータ、gnomADデータ、NHLBI Exome Sequencing Project ESP6500データで観測されたアレル頻度、異なるデータベースからの各種遺伝子ID、遺伝子の機能説明、遺伝子発現、遺伝子間相互作用情報などの関連情報が掲載されている。

 

Academic

ゲノムアセンブリと結果を予測アルゴリズムコホートデータなどを選択する。confirmボタンを押さないと結果に反映されないので注意する。

f:id:kazumaxneo:20201223220947p:plain

 

 

問い合わせは1部位、または複数部位同時に行える。

f:id:kazumaxneo:20201223221149p:plain

複数同時の場合、ローカルからVCFやテキストをアップロードして問い合わせも可能。

 

single queryの結果(example)

f:id:kazumaxneo:20201223221104p:plain

Multiple Queriesの結果(example)

f:id:kazumaxneo:20201223221738p:plain

 

dbNSFPのzipファイル(dbNSFP4.2a.zip)をダウンロードして解凍した。

f:id:kazumaxneo:20220106103828p:plain

通常はindex済みの方をダウンロードする。

GRCh38

https://snpeff.blob.core.windows.net/databases/dbs/GRCh38/dbNSFP_4.1a/dbNSFP4.1a.txt.gz

https://snpeff.blob.core.windows.net/databases/dbs/GRCh38/dbNSFP_4.1a/dbNSFP4.1a.txt.gz.tbi

引用

dbNSFP v4: a comprehensive database of transcript-specific functional predictions and annotations for human nonsynonymous and splice-site SNVs

Xiaoming Liu, Chang Li, Chengcheng Mou, Yibo Dong & Yicheng Tu
Genome Medicine volume 12, Article number: 103 (2020)

 

関連


参考


https://filgen.jp/Product/BioScience21-software/goldenhelix/SVS_seminar_slide_20170207.pdf