macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ソフトクリップ情報からSVを検出する seeksv

 

 構造変化(SV)は欠失(DEL)、挿入(INS)、複製、逆位(INV)および他の複雑な再編成を含む50bpを超えるセグメントをカバーする。一塩基多型(SNP)と比較して、SVは、カバーされたヌクレオチドの数が多いため、ヒトゲノムの差異をよりたくさん説明する(Baker、2012)。現在の方法は、大部分がハイスループット配列決定(HTS)のリードに基づいている。これらのメソッドは、depth of coverage(DOC)、paired-end mapping(PEM)、split read(SR)およあびアセンブリベース(AS)の4つのカテゴリに分類できる。これらの方法はすべて制限があり、包括的なSV検出には適していない。 DOCベースの方法(Abyzov et al、2011; Szatkiewicz et al、2013; Xie and Tammi、2009)は、リードが染色体に沿って均一であり、領域に入るリード数がポアソン分布に従うと仮定している。 cn.MOPS(Klambauer et al、2012)は、ゲノム位置ごとに複数のサンプルを読み込み、テクニカルおよび生物学的要因によるリード数の変動に強いモデル化をしている。リードのカウントは、バリエーション検出の重要なシグネチャになる。 DOCメソッドは、重複やDELなどのコピー数の変動に最適である。 PEMに基づく方法(Abyzov and Gerstein、2011; Chen et al、2009; Hormozdiari et al、2010; Korbel et al、2009; Sindi et al、2009; Qi and Zhao、2011)はマッピングされたペアリードのインサートサイズと方向をシグネチャとする。 InGAP-sv(Qi and Zhao、2011)は、不一致のペアリングされたリード信号と、ローカルDOC、マッピングクオリティ、関連するタンデムリピートを含むいくつかの特徴に基づいてSVを検出し、視覚化する。検出されたコピー数変化およびコピー数不変バリアントは、ブレークポイントの正確な分解能ではなく、複雑さの低いゲノム領域での検出能力が低い。 SRベースの方法(Li et al、2013; Wang et al、2011; Ye et al、2009; Zhang et al、2016)は、ペアエンドの片方のリードが参照に一意的にアライメントされ、他はできない。アライメントされなかった側のリードは、ブレークポイントをまたがるマップができるように、分割マップされる。Sprites(Zhang et al、2016)は、クリップされた部分ではなくマッピングされていない全体のリードを、標的配列にアライメントするために使用する。これは、マイクロホモロジーまたはマイクロINSでDELを検出することを目的としている。 SRベースの方法は、検出可能なSVサイズが制限されているため、bpレベルの分解能に達する可能性がある。 アセンブリベースの方法(Alkan et al、2011; Chen et al、2014; Li et al、2011; Zhuang and Weng、2015)が最良の方法であり、ゲノムの複雑さを考慮すると、このような方法は一般に単純な生物の変化の検出に適用可能であるが、従来のデノボアセンブリ方法は変異を検出するようには設計されていない(Zhuang and Weng、2015)。上記の4つの主要アプローチのいずれも包括的ではなく(Alkan、et al、2011)、それらはお互いを補完している。現在のSV検出法(Bellos et al、2012; Jiang et al、2012; Rausch et al、2012; Sindi et al、2012)は、2つまたは3つのシグネチャを利用しており、良好な検出効果を達成する。 Svclassify(Parikh et al、2016)は、異なる配列決定技術からの全ゲノムシーケンシングデータセットを組み合わせ、教師なし機械学習法を用いてSVを遺伝子型分類し、候補SVを真陽性または偽陽性に分類することで、信頼性の高いSVコールを行う。

 しかし、これらの方法は、正常な遺伝子機能を変化させ(Yang et al、2013)、腫瘍形成を導く単一サンプルおよび体細胞SVに基づいて生殖系列ゲノムを検出することを目指している(Carter et al、2012)。 Somatic SVは、癌遺伝子の過剰発現または過小発現に関与し、癌発生に役割を果たす。 CREST(Wang、et al、2011)は、ソフトクリッピングされたリードを使用してブレークポイントを正確に特定する。それは体細胞的に獲得されたSVを検出するのに特に適しているが、いくつかの欠陥がある。(以下略)

 本論文では、体細胞SV検出(germlineにも使用できる)のために開発されたseeksvという新しいSV検出パイプラインを提案する。SR信号、不一致PEM信号、DOC信号、両末端不一致の各種検出信号を網羅的に使用している。 Seeksvはアセンブリに依存せずコンティグを基準に戻すためにBurrows-Wheeler Aligner(BWA)を使用する。 アライメント結果からマッピングされていない2つの末端を持つフラグメントを抽出し、COPE(Liu et al、2012)を呼び出して長いシングルエンドリードを取得し、リファレンスシーケンスにアラインする。一般的には、ペアエンドシーケンシングリードはSVを解析するために利用されるが、Seeksvはペアエンドシーケンシングリードやシングルエンドシーケンシングリードなど、さまざまなタイプのシーケンシングデータに対応する。著者らが知る限り、SeeksvはSV検出のためのシングルエンドリードを利用する最初のツールである。複雑なゲノムは、相同性が最大の相同配列を多数含み、ブレークポイントがマルチアライメントの相同領域に位置する場合、一部のSVは見逃される。 Seeksvは、繰り返し領域に位置するSVを扱うレスキューモデルを開発している。モードがオンになると、マルチアラインメントの詳細な結果を保存してブレークポイントの位置を計算する。

 ウイルス配列の宿主ゲノムへの組み込みは特別なSVである。宿主細胞に侵入する腫瘍ウイルスは、細胞増殖および制御されない増殖をもたらし、最終的に細胞形質転換および腫瘍形成を誘導し得る。ウイルスの発生と発生のメカニズムを明らかにするために、ウイルスと宿主との間の統合関係を分析する必要がある。 SVツールは、腫瘍発生研究にとって不可欠なウイルス組み込み部位を検出できる。 Seeksvは、全ゲノムシーケンシングデータまたはプローブキャプチャデータを用いてウイルス組み込み部位を同定する優れた能力を有する。従来の研究方法と比較して、seeksvの分解能は単一ベースレベルを達成し、より高い精度と効率で、すべてのウィルス組み込みイベントを同時に検出する。

 

インストール

cent OSに導入した。

Github

https://github.com/qiukunlong/seeksv

git clone https://github.com/qiukunlong/seeksv.git 
cd seeksv/seeksv/
./seeksv #ビルドし直すならmake clean && make

$ ./seeksv 

Program: seeksv (a tool for structural variation detection and virus integration detection)

Version: 1.2.3

Contact: Kunlong Qiu(290832867@qq.com)

 

Usage: seeksv <command> [options]

 

Command: getclip    get soft-clipped reads

         getsv      get final sv

         somatic    get somatic sv

  

ラン

1、単一サンプルのSV検出。

step0 (optional): PCR duplicationの検出。

java -jar picard.jar MarkDuplicates INPUT=input.bam OUTPUT=dedup_reads.bam METRICS_FILE=metrics.txt

dedup_reads.bamが出力される。

 

step1: soft-clipリードの抽出。

seeksv getclip -o output dedup_reads.bam

output.clip.fq.gz、output.clip.gz、unmapのread1, 2が出力される。

 

step2: soft-clipしたリードをリファレンスにマッピング

bwa mem reference.fa output.clip.fq.gz |samtools view -Sb -o output.clip.bam -

output.clip.bamが出力される。

 

step3: soft-clipしたリードをリファレンスにマッピング。オリジナルbamとgeclipで出力したoutput.clip.gzを指定する。

seeksv getsv output.clip.bam dedup_reads.bam output.clip.gz SV.txt unmap.fq.gz

output.clip.fq.gz、output.clip.gzとunmapのread1、2が出力される。

出力は一般的なVCFにはのっとっていない。

f:id:kazumaxneo:20180402200547j:plain

検出感度を調整するにはseeksv getsv で表示されるオプション一覧を確認してください。

 

 

 

2、コントロールと比較したSV検出。ここではexample/にある体細胞の腫瘍のSV検出をコントロールと差分をとって行う。

準備するもの。

  • normal.bam ノーマルサンプル(コントロール)のbamファイル。
  • tumor.sv.txt  tumorのSV検出結果。上のフローで作成する。

 

soft-clipリードの抽出。

seeksv getclip -o normal normal.bam

normal.clip.gz、normal.clip.fq.gzが出力される。

 

somatic SVの検出(normalと差分を取る)。

seeksv somatic normal.bam normal.clip.gz tumor.sv.txt tumor.somatic.sv.txt

tumor.somatic.sv.txtが出力される。

 

引用

Seeksv: an accurate tool for somatic structural variation and virus integration detection.

Liang Y, Qiu K, Liao B, Zhu W, Huang X, Li L, Chen X, Li K

Bioinformatics. 2017 Jan 15;33(2):184-191.