macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バリアントをランク付けする Variant Ranker

 

 変異を特定することは、病気の病因を理解する上で重要である。ハイスループットな次世代ゲノム技術の進歩により、ゲノムシーケンシング、エクソンシークエンシング、RNA-SeqおよびChIP-Seqは、複雑なメンデル症の感受性遺伝子座を同定するための標準となっている。課題は、これらの手法が因果関係の変異を識別するために生成する膨大なデータをふるいにかけることにある。これに加えて、有害性の予測(例えばPolyPhen [論文より ref.1]、SIFT [ref.2]、MutationTaster [ref.3])や保全(例えば ' (PhyloP [ref.4]、SiPhy [ref.5]、GERP [ref.6])、異なるツールからの予測にかなりのばらつきが存在することが問題になる。さらに、バリアント機能の注釈はデータベースごとに異なる傾向がある。 SnpEff [ref.7](簡単な紹介)、SeattleSeq [ref.8]、ANNOVAR [ref.9]のようなバリアントのアノテーションには、非常に有用なツールがいくつか存在するが、バリアントをランク付けする能力はない。 eXtasy [ref.10]やSPRING [ref.11]のようなツールは、同義置換以外をランク付けする。他のケースでは、VAAST [ref.12]やKGGSeq [ref.13]のようなツールは病気の原因となるバリアントの優先順位を決める便利なコマンドラインツールだが、通常はツールをダウンロードして実行するためにはある程度のプログラミング知識が必要となる。

 著者らは、様々なアルゴリズムやデータベースからの変異型の予測とアノテーションをそれぞれ組み合わせる簡単な方法を提供することにより、ゲノムデータを解釈する課題に取り組むWebベースのバイオインフォマティクスツール、Variant Rankerを開発した。最終結果は、機能的研究または実験的検証のために引き継がれる変異のランク付けされたリストである。このツールを使用すると、いくつかのデータベースのバリアントに存在する既存の情報と利用可能な情報を結合した単一のスコアを計算することによって、優先順位付きバリアントのランク付けされたリストが生成される。 Variant Rankerは、de factoVCF [ref.14]とANNOVAR [ref.9]の形式を使用して、すべてのタイプのシーケンシングデータに適用できる。このツールの利点は、使いやすさ、すべてのバリアント(コーディングおよびノンコーディング)スコアリング、およびユーザーに提供されるフィルタリングの柔軟性である。ユーザーは、データベースを介して迅速に結果を照会することができ、バイオインフォマティクスのスキルが限られている人を含む、容易にアクセス可能で解釈可能な出力を提供する。ランク付けされた変異/遺伝子リストから重要な生物学的接続を発見するための下流の機能的濃縮分析の目的で、ネットワークアナライザーが統合されている。ネットワークアプローチを介してDAVID(アノテーション、ビジュアライゼーション、統合ディスカバリ用のデータベース、https://david.ncifcrf.gov)[ref.15、16]の表形式の結果を調べるネットワーク視覚化ツールである。

 バリアントランキングアルゴリズム

 使用可能なアノテーションを使用して、すべてのバリアントが0と1の間のウェイトを割り当てることによってエンコードされる。たとえば、ANNOVARアノテーションでのルールに従ってエクステリアにウェイトが与えられる。対応する重みは、それぞれ、1,5,5,6、4 / 6,3 / 6,2 / 6,1 / 6となる。保存アルゴリズムと予測アルゴリズムからのスコアは、各アルゴリズムを使用して対応する重みに変換される。例えば、変異がGERP [ref.6] score> 2(高度に保存されている)である場合、それに対応する重み1が与えられる。同様に、予測アルゴリズムPolyphen2の場合、重みは1(損傷)、0.5(おそらく損傷) MetaSVM [ref.23]、MutationTaster [ref.3]、MutationAssessor [ref.24]、およびFATHMM [ref.25]は、重み1(有害)および0(耐性)に続いて、SIFT [ref.2]、LRT [ref.22] 。 ENCODE [ref.27]エレメント、転写因子結合部位または保存部位を持つ領域の変異、およびdbSNPに存在しない場合、またはGWASカタログ[ref.28]またはクリニカルバリア[ref.29]データベースに存在する場合には、バイナリー加重(1または0)を適用する。集団頻度データベースでは、希少対立遺伝子に重み付けするために重み付け(1 - 対立遺伝子頻度)が割り当てられる。

 このように、新規であり、いくつかの予測アルゴリズム(異なるアルゴリズムは異なる予測を有する傾向がある)によって有害で​​あると予測される、機能的に重要な変異に対してより高いスコアが与えられる。各バリアントの合計得点は、バリアント当たりの符号化ウェイトの合計を取ることによって得られ、その後、すべてのバリアントは、それらの合計得点でソートされ、ランク付けされる。この方法には、バリアントごとに利用可能な情報に基づいて、単一のスコアが与えられる利点もある。

 

チュートリアル

http://paschou-lab.mbg.duth.gr/html5up/Tutorial33.html 

 

実行方法

Variant Ranker以外に複数のモジュールがある。

1、Variant Ranker: Single sample VCF/List of Variants(リンク

データセットの変異のランク付けとアノテーションを実行し、複数ソースの情報から各変異の有害性、新規性および既存の情報などの優先度を統合する。

VCFを指定し、パラメータを設定してsubmitする。

f:id:kazumaxneo:20180728135114j:plain

Sample Identifier:はなるべくspecificな名前にする。これは、Sample Identifierで検索できるが、その時他のデータもヒットしないようにするため。メールアドレスも記載する。ジョブが終わればしゅつ力リンクつきメールが届く。

ランタイムはバリアントコールの数などで変わってくるが、およそ30000コールあるテストvcfでは数十分で結果が得られた(チュートリアルに説明あり)。

チュートリアルでは、Variant Rankerの使用例として、論文で副産物的に報告(pubmed)された突発性の溶血性貧血(wiki)のWESデータ解析由来VCFを使っている。論文ではPKLRが原因遺伝子として報告されているが、Variant RNakerのVCFランキングでは、PKLRが4位に検出されている。下のリンク先にjob ID"nonregistered-2016-01-13_13:24:42"を貼り付ければ結果が見れる。

Welcome - : Spectral Ranking Home

f:id:kazumaxneo:20180728140732j:plain

出力はここには載せません。自分で実行してください。出力内容についての説明(リンク)。

チュートリアルには、他に、ファイファー症候群(wiki)とミラー症候群(wiki)の患者の合成データ由来VCF解析例がある(3万以上のbiallelic variantsからのランキング)。

 

2、Filtering Multi-sample VCF/Case-Control Filtering 

Cases / Controls間(ケースコントロール:wiki)のバリアントをフィルタリングし、ランク付けされたバリアントリストを取得する。ssnpshiftを"casecontrol"フラグつきで走らせて拡張VCFを作っておく必要がある(e.g., java -jar SnpSift.jar caseControl "++++0-----" cc.vcf )。

http://paschou-lab.mbg.duth.gr/index/login/CC.php

f:id:kazumaxneo:20180728142426j:plain

ラン時に簡単なフィルタリング条件を設定できるが、その時、以下のパラメータをつけることが推奨されている。

  1. Cases and not Controls: NCase>0 and NControl=0
  2. Controls and not Cases: NControl>0 and NCase=0

f:id:kazumaxneo:20180728143241j:plain

 

 

3、Filtering Result Explorer
Variant Rankerの結果をフィルタリングする。保存したバリアントランキング結果をアップロードする以外に、 Variant Rankerの結果のページから直接利用することもできる。ユーザー指定の条件でフィルタリングして、機能的に重要なバリアントを抽出するために使う。

f:id:kazumaxneo:20180728150425j:plain

 

 

4、Network Analyser

ネットワークアナライザーは、関連する遺伝子を調べるため biological connections を視覚化するためのツール。アノテーション、ビジュアライゼーション、DAVID(https://david.ncifcrf.gov)データベースを利用する。 例えばVariant Rankerのトップランク遺伝子をここに入力して関連する遺伝子を分析する。

http://paschou-lab.mbg.duth.gr/index/login/PathwayNR.php

f:id:kazumaxneo:20180728151913j:plain

ネットワークの表示にはFlash playerのプラグインが必要になります。

 

5、SNPtoGene

バリアントのポジションリストから遺伝子名に変換する。入力はBEDファイルに対応している。リストが多すぎると機能しない。

f:id:kazumaxneo:20180728145922j:plain

 

全モジュール。

http://paschou-lab.mbg.duth.gr/html5up/index.html

f:id:kazumaxneo:20180728134652j:plain

 

論文での使用例もある。

https://www.frontiersin.org/articles/10.3389/fnins.2016.00428/full

 

*他にも同じ名前のツールがあります。注意してください。

引用

Variant Ranker: a web-tool to rank genomic data according to functional significance.

Alexander J, Mantzaris D, Georgitsi M, Drineas P, Paschou P

BMC Bioinformatics. 2017 Jul 17;18(1):341.