macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

large insertionの検出テスト

欠損に続き挿入も検出できるかテストしたので報告する。

 

検証

deletionと同じようにシミュレーションとリアルデータ両方を使って、read-pair以外の手法を検証した。論文化がまだなので、結果だけ箇条書きする。

  • read-pair法のBreakdancerはシミュレーションデータでは100 bp以上の挿入を100%検出したが、リアルデータではdefault条件でランできなかった。
  • Split-read法のPindel、Breseは、シミュレーションデータ、リアルデータに関わらず100bp以下の挿入を検出した。リード長以上の欠損は全く検出しなかった(論文に記載されている通り)。
  • アセンブルのPlatypus、Fermikit、そしてSvABAはシミュレーションでは好成績だったが、リアルデータでは大きくバラついた。下の表の推奨ターゲットはリアルデータの結果からまとめた。
  • Scanindelは100bp以下の挿入の検出はパーフェクトだったが、長くなるについれて検出率は落ちた。この傾向はシミュレーション、リアルデータ両方で共通だった。また挿入が大きなサイズだと1つを複数回検出することがあった。
  • LUMPYは挿入を検出できないので除外した。

以上のことから、検出可能な挿入サイズは以下の表のようにまとめた。

f:id:kazumaxneo:20170525115320j:plain

 

まとめ

 シミュレーションでは高感度でも、リアルデータではイマイチの手法が目立った。リアルデータでベストな成績を出したScanIndelとPindelは有望と思われるが、同時に検出精度は100%に達しなかった点も明記しておく。現状ではInsertionをできる限り漏れなく捉えるには複数手法を並行して行う必要があると思われる。