macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

large deletionの検出テスト

 以前、構造変化を検出する4つの方法を紹介した。

 

4つの原理を利用したツールは論文もソースコードも探せば無償で入手できるので、興味があればインストールして自分のデータを解析することも可能である(このブログでも紹介している)。ただしペーパーでは精度の高い方法として紹介されていても、リアルデータではイマイチなことも多い。理由は、データがシーケンサーやライブラリ作成でバイアスを受けていたり、コンタミリードがあったり、リードのクオリティが片方だけ悪かったり、はたまたカバレッジがそもそも薄かったりと様々である。ツールについても、OS環境の違いやメモリ要求量が厳しくてランすらできない手法もある。

 そこでここではソフトをmacにインストールして、解析結果から傾向をまとめることにした。 インストール可能で生のパフォーマンスも見えて来れば、導入しやすくなると思う。

 

検証条件  

クローナルなhaploidゲノムの欠損変異を検出することを想定し、10 ~ 5000bpのサイズの欠損を入れたシミュレーションデータ (250 bp x 2、50カバレッジ)とリアルデータ (4Mのバクテリア、301bp x 2、およそ30カバレッジ) を準備した。不完全欠損も検証するため、0 ~ 5000bpのサイズの欠損を25%、または50%混ぜこんだデータを用意した。ツールは、以前紹介したPindel、Breakdancer-max、Platypus、Fermikit、SvABA、Breseq、LUMPY、Scanindelを使用した。

 

結果

 本来は結果の詳細を載せるべきであるが、論文化できていないので手法それぞれのテスト結果を下に箇条書きする。またその結果から手法ごとに適した欠損サイズを表にまとめた。

  • read-pair法のBreakdancerはシミュレーションデータの100 bp以上の完全欠損、不完全欠損を95%以上検出した。リアルデータを使うとdefault条件でランできなかった (インサートサイズがpoor qualityになる) 。

 

  • Split-readとread-pairを組み合わせたPindelは、シミュレーションデータ、リアルデータ両方とも300 bpまでの欠損を95%以上検出した。1 kbp以上の欠損の検出率は0%だった。不完全欠損 (50%欠損、25%欠損)のシミュレーションデータを使うと、10bp以下の欠損の検出感度が大きく低下した。

 

  • split-readとread-depthを組み合わせたBreseqは、シミュレーションデータ、リアルデータ両方とも全ての欠損を検出した。しかしシミュレーションの不完全欠損 (50%欠損、25%欠損) の検出率はゼロ%だった。

 

  • アセンブルのFermikit、そしてSVABAは短い欠損も長い欠損も全て検出した(完全欠損のシミュレーション)。リアルデータでは結果が安定しなかった。不完全欠損 (50%欠損、25%欠損)のシミュレーションだとサイズに相関を見せずバラついた。
  • アセンブルのPlatypusはリアルデータ、シミュレーションデータの完全欠損、不完全いずれも数十bp以内の短い欠損を100%検出した。

 

  • hybrid法のScanindelは、リアルデータ、シミュレーションの完全欠損で100%欠損を検出した。ただしシミュレーションでは大きな欠損の1部位を複数回検出する傾向があった。シミュレーションの不完全欠損 (50%欠損、25%欠損)だと、50%欠損は100%検出したが、25%欠損はおよそ50%の部位だけ検出した。

 

  • hybrid法のLUMPYは100bp以上の欠損のみ100%検出したが、サイズのずれや冗長な検出が多かった。

 

以上のことから、精度よく検出可能な欠損サイズは以下のようにまとめた。 

f:id:kazumaxneo:20170525114822j:plain

 

・まとめ 

 結果は短い欠損か長い欠損のみ検出するツールと、サイズによらず検出可能なツールに別れた。また、シミュレーションでは高感度でも、リアルデータでは検出感度が悪くなる傾向が強く見られた。例えばシミュレーションで万能だったFermikitは、リアルデータのlong deltionを全く検出できなかった。一方、複数手法を混合しているScanindelとBreseqはサイズによらず高感度に検出した。各アルゴリズムの長所をうまく組みあ合わせているからと考えられる。ただし不完全欠損のシミュレーションでは、Breseqは検出感度がゼロになった。scanindelも欠損がレアだと感度が下がる傾向が見られた。また、リアルデータの長い不完全な欠損を検出できた手法は1つもなかった。

 

 

 欠損変異は4つの手法いずれでも検出は可能で、他の複雑な構造変化と比べると検出は容易と考えられる。それでも検出漏れがたくさん出たことは、万能の欠損検出ツールというのは無くて、複数のツールを使い分けるのが必須なことを示唆している。特にコピー遺伝子の欠損変異 (CNVs) や、不完全欠損などの欠損を高精度に検出するには今後さらなる手法の改善が必要なことを示している。解決にはlong read情報が必須なのかもしれない。  

 今回使ったリアルデータは30カバレッジのややカバレッジが少ないデータである。ツールのパラメータ設定、生物種、リードのサイズ、カバレッジ、クオリティにより上記の結果は変わる可能性がある。