macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ヒトのバリアントを視覚化したりフィルタリングできるwebツール VCF/Plotein

 

 エクソームシークエンシング(ES)は、多数のヒト表現型および疾患に寄与する遺伝的変異を同定することにおいて非常に成功している (Gilissen et al., 2011; Do et al., 2012).。しかしながら、疾患を引き起こす変異および突然変異を同定する実際のプロセスは依然として挑戦的な課題であり、そしてしばしば少なくともいくらかのバイオインフォマティクスの知識を必要とするものである。これは主に、ESプロジェクトで日常的に確認されている膨大な数の変異、変異が作用する可能性のある生物学的メカニズムの多様性、および病原性スコアリングアルゴリズムと臨床および母集団データベースの両方からの大量の情報の統合の必要性によるものである。
 これに関連して、病気の原因となる変異の発見を加速するために、エキソームシークエンシングデータをフィルタリングし、表示し、そして文脈化することができるいくつかのソフトウェアツールが開発された。しかしながら、これらのプラットフォームは、コマンドラインの十分な理解を必要とし(Paila et al、2013)、対話型ウェブインターフェースを有するが、生物学的解釈を豊かにする外部遺伝子アノテーションを活用しない(Hart et al、2016; Salatino and Ramraj、あるいは、タンパク質レベルでの変異の可視化をサポートしていない(Alemánet al、2014; Salatino and Ramraj、2017)。
 ここでは、バイオインフォマティクスに関する最小限の知識しか必要としないエクソームシークエンシング研究から変異を視覚化し、優先順位を付けるための、使いやすいグラフィカルWebアプリケーションであるVCF / Ploteinを紹介する。このように、このアプリケーションは、バイオインフォマティシャンによって、または特定の疾患または遺伝子を研究している医療専門家によって等しく使用され得る。

 VCF / Ploteinは、Linux Centos 7.5オペレーティングシステム上でVMware 6.5.0仮想マシンを実行する2コアIntel Xeon E5-4627 v4 2.60GHzプロセッサを搭載したサーバー上でホストされるシングルページアプリケーションとして完全に実装されている。サーバーには4GBのRAMと1TBの記憶容量を持つソリッドステートハードディスクドライブもある。このアプリケーションは主にJavaScriptで書かれており、Vue.jsベースのNuxt.jsフレームワークを使用してブラウザ内の情報の格納、フロー、表示を制御する。ローカルにインストールされた外部データベースから情報を取得するための専用のAPIが開発された(gnomAD [バージョン:2.1サイズ:59.23 GB] [Lek et al。、2011] dbSNP [ビルド:151、サイズ:14.6 GB] [Sherry et al COSMIC [バージョン:86、サイズ:421.8 MB] [Forbes et al、2017]、ClinVar [バージョン:86、サイズ:170.7 MB] [Landrum et al、2014]、Human Phenotype Ontology database [バージョン:2019年2月、サイズ:5.9 mb](ケーラー et al、2019)およびGO term情報[バージョン:2018年9月、サイズ:7mb] [各アノテーション付き遺伝子についてはAshburner et al、2000]。 VCF / Ploteinは、バリアントコールフォーマット(VCF)のファイルを処理する(Danecek et al、2011)。ロード時にVCFが検証され、適切なラインからアセンブリバージョンを識別した後、インターバルツリーアルゴリズムを各遺伝子のゲノム位置を含む内部座標インデックスと照合することで、バリアントを持つ遺伝子がすばやく検索される。これにより、VCFで表されるすべての遺伝子のリストが生成される。これはさまざまな方法でフィルタリングできる。遺伝子が選択されると、タンパク質をコードする転写産物および機能ドメインに関する情報が、REST APIを介してEnsemblから抽出される(Zerbino et al、2018)。選択された遺伝子に含まれるすべての変異からの結果、ならびにSIFT(NgおよびHenikoff、2003)およびPolyPhen(Adzhubei et al、2010、2013)によるそれらの病原性スコアは、Ensembl Variant Effect Predictor(McLaren et al、2016)によって得られる。 サポートされている外部データベースとの相互参照は、Elasticsearch検索エンジンを使用して内部データベースに対してクエリを実行することによって実行される(補足図1)。収集された情報はすべてJSON形式のオブジェクトのコレクションとして保存され、Webブラウザに返されて、D3.jsライブラリを使用して作成された標準的なトランスクリプトの1次構造のカスタマイズ可能なプロットに表示される(論文補足図2)。サポートされている外部データベースでの裸のゲノム位置の検索を除くすべての操作は、ユーザーのCPUによってローカルに実行される。

(以下略)

 

Github

 

使い方

https://vcfplotein.liigh.unam.mx/#/ にアクセスする。Get startをクリック。

f:id:kazumaxneo:20190605203626p:plain



推奨 ブラウザ:Mac/LinuxChromewindowsはEdge。

 

 

vcf(vcf.gzも可能)をドラッグアンドドロップする。

f:id:kazumaxneo:20191003180715p:plain

論文に記載されているが、バリアントの染色体とポジションのみ送信される。個人情報は保存されない。

 

サンプル間頻度、gnomAD、dbSNP、ClinVar、COSMICデータの有無が表示される。また、データベースを元にバリアントの病原性が予測され、表現型や機能から変異を検索できる。

f:id:kazumaxneo:20191003182910p:plain

tumor variantのmockデータを使った。chr1 ~ 3からバリアントが見つかったことが分かる。chr1では12 genesヒットしている。

 

Bioogical processから絞込む。

f:id:kazumaxneo:20191003181847p:plain

 

疾患名からも探せる。

f:id:kazumaxneo:20191003181253p:plain

右端の遺伝子名をクリックすると、詳細を示したページにジャンプする。

f:id:kazumaxneo:20191003181955p:plain

 

左のメニューから様々な操作を行うことができる。

f:id:kazumaxneo:20191003183342p:plain

この写真のように、例えばgnomAD、dbSNP、ClinVar、COSMICデータベースの有無などでフィルタリングできる。

 

ただしテスト時はここでネットワークエラーになって視覚化表示が止まってしまった(10 proの EDGE使用 )。demoデータを見ると、以下のようなバリアントの染色体の位置に沿った視覚化が行えるらしい。

f:id:kazumaxneo:20191003183607p:plain

左のメニューからフィルタリングできる。操作を実行すると、表示されるバリアントも変化する。

引用 

VCF/Plotein: Visualisation and prioritisation of genomic filters from human exome sequencing projects
Raul Ossio O Isaac Garcia-Salinas Diego Said Anaya-Mancilla Jair S Garcia-Sotelo Luis A Aguilar David J Adams Carla Daniela Robles-Espinoza
Bioinformatics, btz458, https://doi.org/10.1093/bioinformatics/btz458
Published: 04 June 2019

 

関連