macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

indelコールの冗長性を調べる Vindel

 

 ゲノムDNAの変異は、一塩基多型(SNP)、挿入および欠失(indels)、逆位、大規模な複製/欠失、および転座などの構造変異を含む。最近の大規模なヒトゲノムシークエンシングプロジェクト[論文より ref.1]で示されているように、これらのタイプの変異の中で、indelsはヒト集団でSNPに次いで多い変異である。しかし、新たに配列決定されたヒトゲノムが利用可能になると、新規indelsの数はSNPよりもはるかに速いペースで増加する。例えば、2011年の調査によると、79の多様なヒトゲノムで同定された約2百万のindelsの63%以上がdbSNPのものと比較して新規である[論文より ref.2]。最近のインド女性のゲノムの配列決定および分析から、彼女のindesの約84%が独特のものであることを明らかにしている(3%のSNPが独特であるのに対し、シーケンシングされたゲノムデータベースのいずれにも記載されていない(論文執筆時点)。従って、SNPと比較して、indel変異を分類する研究はまだ初期段階であり、完全な目録を得るためには激しい努力が必要である。 Indelはまた、ショートリードマッピングアルゴリズムに大きな技術的困難および挑戦を提示している。第1世代のショートリードマッパーから改良され、さまざまなマッピングプログラムとindel検出プログラムが開発され、indel検出[ref.4-12]を可能にした。しかし、シード領域でindelが発生した場合(不一致のみが許可されている場合)、マッパーとindel検出プログラムはまだリードのマッピングに失敗する可能性があるが、マッピングのパフォーマンス全体にどのように影響するかは不明である。

 indel関連の研究が急速に発展していることから、同定されたindelsの品質評価は、下流の関連研究にとってますます重要になっている。 SNPのコールと比較して、indelコールは、PCR、シーケンシング、マッピング、およびバリアントコールで発生するエラーが発生しやすくなる。これらの誤りは、indel同定[ref.13]において高い偽陽性率をもたらす可能性がある。他方では、非常に厳格な基準と非常に複雑なindelコールのプロセスのために、実際のindelsも削除する可能性がる[ref.14]。最近、dbSNPのindelsに取り組んでいる間に、著者らは複数のindelsが同じ変異をもたらすが、異なる変異として扱われることに気づいた。論文の図1は、1つの挿入と1つの削除のindel例を示している(論文PDF)。どちらのタイプでも、2つのindelはバージョンの異なるdbSNPバージョンで異なるIDで表示されるが、異なる変異を引き起こす2配列をアラインメントするとリファレンスゲノムに同じ変更を引き起こすことを明確に示している。生物学的には、例に見られるように代替位置を持つindelが存在するかもしれないが、著者らの知る限りでは、実験的に真の生物学的信号を表すものを正確に知る方法はない。後で示すように、現行のdbSNPには、このような冗長なインジケータの無視できない数が存在する。注釈が異なるだけであれば、リファレンスゲノムへの変更結果の配列ではなく、indelsを冗長と呼ぶ。この冗長な情報は実際の生物学的シグナルを明らかにせず、下流の分析を誤解させる可能性がある。観察された冗長性は、アラインメントプログラムによって生成される等しく最適な配列アラインメント、すなわち、バリアント配列とリファレンスの配列が一緒にアライメントされる場合、アラインメントプログラムは複数の最適解を計算上区別できないため、異なるアラインメントプログラムが異なるindelとして報告してくる。これらのケースでは、dbSNPでキュレーションされたindelsの一般的な問題が冗長である可能性がある。しかし、冗長性の程度を十分に調査する作業は行われていない。さらに確認するために、隣接するSNPの距離分布をdbSNPの隣接するindelの分布と比較する。すべての染色体において、隣接するSNPの距離と比較して、隣接するindelsの距離はより高い割合を示すことが見出される。例示的な例として、論文の図2は、隣接するSNP間の距離のヒストグラムと、染色体22の隣接するindel間の距離を示す。両方のタイプの距離は、単調に減少する分布となっている。しかし、SNPとは対照的に、隣接indel距離= 1の数は、他のすべての距離から顕著である。これは、SNPと比較して、互いに隣接しているか、染色体上に非常に近いindelがさらに多く存在することを示している。この結果から、近隣のindelsの冗長性を調べるさらなる動機づけが筆者らに促された。

 この論文では、indelの冗長性をチェックする方法と戦略を開発する。 テストケースとしてdbSNP indelsを使用して、ヒトのindel冗長性の範囲を調べ、スタンドアロンのindel冗長性検証パイプラインであるVindelと対応するWebツールを開発する。 パイプラインの正確性をチェックするために統計分析が適用された。 indelsは病気や癌に関連しており、様々な目的で遺伝子マーカーとして使用されているため、重複したindelsをカタログ化し、計算上の値ではなく実際の生物学的信号を表す重複しない情報を持つアノテーションを開発することが不可欠である。 著者らのVindelシステムは、この目的に必要なツールを提供する。

f:id:kazumaxneo:20180416074838j:plain

公式ページより転載。冗長なindelの検出。

 

公式ページ

http://bioinformatics.cs.vt.edu/zhanglab/software/vindel/indelRedundant.php

HPにて、筆者らの計測でNCBI's dbSNPの590万のindelのうち60万近くが冗長だったと報告している。

 

ラン

Vindel weサーバー

f:id:kazumaxneo:20180416075822j:plain

テスト時は動作しなかった。サーバーが休止しているのかもしれない。

 

引用

Vindel: a simple pipeline for checking indel redundancy

BMC Bioinformatics. 2014; 15(1): 359.

Zhiyi Li, Xiaowei Wu, Bin He, and Liqing Zhang