macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

SVイベントを統合し、より複雑なSVを予測する CLOVE

 

 Structural variants(SV)は、少なくとも2箇所での二本鎖DNA切断とそれに続くDNA修復によって引き起こされるゲノムの再構成である。典型的には、SVという用語は、サイズが1kbを超える事象に対して使用される[論文より ref.1 この論文での定義]。 SVには、大きな挿入、逆位、balanced translocationsまたはunbalanced translocations、および増幅および大きな欠失(コピー数変動(CNV)と総称される)が含まれる。集団の多様性、癌[ref.2,3,4]および他の疾患(例えば、Charcot-Marie Tooth [ref.5]および自閉症[ref.6])の研究において、SVの正確な理解は重要である。

 ハイスループットシークエンシング技術の使用の増加は、生殖系列および体細胞における構造変化の発見および遺伝子型決定の進歩をもたらした[ref.7,8,9]。その結果、DNAシーケンシングデータからSVを検出するための様々な方法が開発されている。異なるアプローチは、read depth(RD)、discordant read pair(DR)、split reads(SR)、およびde novo assembly (DN)の4つの異なるカテゴリに分類できる。 RDメソッドは、ウィンドウ内のリードをカウントし、カウントをセグメント化することを含む[ref.10]。それらは構造変化の1つのクラス(CNV)のみを特定し、ブレイクポイントの直接的証拠もゲノム組成に関する情報も提供しない。それらの分解能と精度は、シーケンスカバレッジとウィンドウサイズに依存するが、通常キロベースのオーダーである。 RDメソッドの例には、readDepth [ref.10]とCNVnator [ref.11]がある。 DR法は、ブレイクポイント(典型的には、リード間のシーケンシングされていない領域)をスパンしてシーケンシングされているペアリードを使用する。

(一部略)

 多くのツールは、複数の証拠を組み合わせてSVを予測するハイブリッド手法を利用している。例えば、Delly [ref.19]とPRISM [ref.20]は、DRの証拠を使用し、SRの証拠をターゲットとのSmith-Watermanアライメントを通じて組み込む。 CNVer [ref.12]は、潜在的なコピー数変化を識別するためにDRおよびRDシグナルを使用する。 CREST [ref.21]は、1塩基分解能でSVを直接マッピングするためにSR、DNを使用するが、SMUFIN [ref.22]はDNを最初に使用し、その後にSRを使用する。

 もう1つの戦略は、「コンセンサス」コーラーアプローチである。たとえば、MetaSV [ref.23]は、複数のツールセットをパイプラインに統合する。このアプローチは、複数のツールの強みと信頼性をレバレッジしてSVコールすることを目的としているため、meta-callerとみなされる。

 それにもかかわらず、SVの特定は困難なままである。既存の方法は、感度および精度、ポジション精度および誤差プロファイル、ならびに様々なタイプのSVのうちの1つへの分類に関連する様々な問題を被る。既存の方法の大半は、ブレイクポイント、これはgenomic fusions(以後、fusionsと称する)とも呼ばれる、を特定するだけで、リアレンジメントをさらに分類しない。いくつかのSVコーラーは、挿入および欠失などの限定された分類が可能だが、より複雑なリアレンジメントを分類することはできない。 SVは、単純なもの(欠失のような単一の融合のみを含む)またはより複雑なイベント(balanced translocationsまたは逆位のような2つ以上のfusionsが関与する)であり得る。 Yangら[ref.24]は、 SVアルゴリズムの出力における複雑なイベントの欠如、複雑な欠失の導入、根底にあるDNA修復機序の可能性を指摘した。 Sudmantらの研究[ref.25]では、ヒトゲノムの大きなコホートにおいて、転移因子挿入を含んでSVを分析した。(一部略)

 ここでは、1つまたは複数のブレイクポイント(またはSV)検出メソッドからのコールを統合し、SVを(再)分類する、新しいメソッドCLOVEを示す。本法は、提供されたブレイクポイント情報からグラフデータ構造を作成し、より複雑なリアレンジメントタイプ(例えば、balanced translocations)の特徴であるパターンを探す。 CLOVEはSVコーラー元ではないが、他のツールの複数の独立したブレークポイントの予測を、より正確に、潜在的により複雑な可能性がある単一のイベントに統合する。これにより、これらの他のツールの出力がより解釈可能になり、精度が向上する。 CLOVEは、(i)入力セット(現在または将来のSVアルゴリズムから)を使用し、(ii)元のコールセットよりも複雑なSVにデータを再分類できる、最初のmeta-callerである。

 著者らのアルゴリズムは、さまざまなツールによって生成されたブレイクポイントまたはSVコールを処理することができる。実際には、複数のfusionsセットを同時に処理することができ、raw callの感度が向上する。 CLOVEは、既存のブレイクポイントコール元を増強するものと考えることができる。 これは、(i)複雑なイベントのシグネチャを集合的に提示する単純イベントのセットと、(ii)リードデプスチェックをパスするかまたは通過しない単純なイベントの残りのものへのSVのレイヤー化を可能にする。(以下略) 

 

インストール

mac os10.14でテストした。

依存

  • CLOVE runs on java 1.8 or higher

本体 Github

conda install -c bioconda -y clove

> clove -h

$ clove -h

Options (all mandatory -- input can be specified more than once):

-i <list of breakpoints> <algorithm (Socrates/Delly/Delly2/Crest/Gustaf/BEDPE/GRIDSS)>

-b <BAM file> 

-c <mean coverage> <coverage>

-o <output filename> [default: CLOVE.vcf]

-r Do not perform read depth check. This option will lead all deletions and tandem 

  duplications to fail, but runs a lot faster. Use to get an idea about complex 

  variants only.

 

実行方法

coordinate sortされたbamと、SVのリストファイルを指定する。

clove -i my_results.txt delly -b input.bam -c 30 7 -o output.vcf

 

 引用
CLOVE: classification of genomic fusions into structural variation events
Schröder J, Wirawan A, Schmidt B, Papenfuss AT

BMC Bioinformatics. 2017 Jul 20;18(1):346