macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(ヒト向け)matched tumor normal ペアからsomaticとgermlineのCNVイベントを検出する TumorCNV

 

 生殖細胞系コピー数変異(CNV)および体細胞コピー数改変(SCNA)は、ガンにおいて重要な役割を果たすことが示されている。次世代シーケンシング(NGS)技術の急速な発展に伴い、全ゲノムシーケンシング(WGS)は、ガン研究および臨床診療においてゲノムワイドな生殖系列CNVおよびSCNAを検出するためのルーチンになりつつある。生殖細胞系CNVは、一般的な単一サンプルCNVコールアプローチを使用することによって、正常サンプルのWGSデータから検出することができる(Zhao et al、2013)。 SCNAはこれらのアプローチを用いて腫瘍試料のWGSデータから検出することができたが、生殖細胞系CNVとSCNAを区別することは困難である。それゆえ、腫瘍サンプルおよびその適合正常サンプル(腫瘍 - ノーマルサンプルペアと呼ばれる)のWGSは、生殖細胞系CNVおよびSCNAを検出するために広く使用されている。
 FREEC(Boeva et al、2012;Boeva et al 、2011)、BIC-seq(Xi、2011)、TitanCNA(Ha et al、2014)、CNAnorm(Gusananto et al、2012)、cambus(Roller et al、2016)のような、腫瘍 - 正常サンプルペアのWGSデータからSCNAを検出するためのいくつかの計算手法が提案されている。一方では、既存の手法はSCNAを検出するか、またはSCNAと生殖細胞系CNVを別々に検出するだけであり、生殖細胞系CNVとSCNAを同時に検出することはできない。一方、SCNAについては、既存のアプローチは通常精度が低く、これはガン研究および臨床診療におけるWGSの広範な適用に対する障害である。一般に、腫瘍サンプルまたは腫瘍 - 正常サンプルペアにおけるコピー数イベントの検出は、正常サンプルにおける生殖細胞系CNVの検出よりもはるかに困難である。これは、3つの主な理由による。(i)腫瘍サンプルは、通常不純であり、腫瘍細胞と正常細胞の未知の画分(腫瘍純度)で構成されている(Aran、et al、2015)。 (ii)腫瘍細胞は時々、いくつかの染色体セグメントまたは染色体全体の異常なベースラインコピー数を有する(腫瘍倍数性)(Storchova  and Pellman、2004)。 (iii)サブクローン進化のために、腫瘍細胞は不均一(腫瘍不均一性)であり得る(Navin et al、2011; Swanton、2012)。

腫瘍 - 正常サンプル対ペアに対する既存のSCNA検出アプローチの大部分は、確率的モデルまたは統計的モデルを構築するために、正常サンプルに対する腫瘍サンプルのリードデプス(RD)またはRD比を使用する。 RDベースのアプローチは、ハイカバレッジとローカバレッジの両方のNGSデータに有効である。さらに、生殖細胞系SNV部位における対立遺伝子特異的RDは、いくつかのアプローチによって広く利用されている(Ha et al、2014)。しかしながら、対立遺伝子特異的RDは高カバレッジNGSデータからのみ得ることができるので、対立遺伝子特異的RDを活用するアプローチは高カバレッジNGSデータに対してより効果的である。腫瘍 - 正常サンプル対ペアに対するSCNA検出アプローチのための別の重要な局面は、腫瘍サンプルの複雑さにどう対処するかである。例えば、BIC-seq(Xi、et al、2011; Xi、et al、2016)は腫瘍の純度、倍数性、異質性については考慮していないが、FREEC(Boeva、et al、2012; Boeva、et al 、2011)、Canvas(Roller et al、2016)およびTitanCNA(Ha et al、2014)はこれらの要因をモデル化することができる。
 本論文では、TumorCNVという、腫瘍 - 正常サンプルペアのWGSデータから生殖細胞系CNVとSCNAを共同で検出するための新しいアプローチを提示する。 TumorCNVはRDと対立遺伝子特異的なRDの両方をモデル化し、腫瘍サンプルの複雑さを解釈する際に腫瘍の純度と倍数性に対処する。 TumorCNVは、隠れマルコフモデル(HMM)を用いて生殖細胞系CNVとSCNAを一緒にセグメント化する。 TumorCNVを使い、シミュレーションデータとCOLO-829メラノーマ細胞株のリアルデータを用いた既存のコピー数イベント検出アプローチを比較した。実験結果は、TumorCNVが既存のアプローチよりも優れた性能を達成したことを示していた。
TumorCNVのワークフローは論文補足図S1に示されており、それは3つの主なステップで構成されている。前処理ステップは、計算モデルを構築するためのリードデプス、対立遺伝子特異的リードデプス、GC含有量、および適合性スコアを抽出する。セグメンテーションステップは、腫瘍 - 正常サンプルペア中の生殖細胞系CNVおよびSCNAをHMMと一緒に推論する。後処理ステップは、生のセグメント化コピー数イベントを精製し、信頼性の高い生殖細胞系CNVおよびSCNAを生成する。
最初に、全ゲノムを所定のサイズ(例えば500bp)を有する重複しない隣接ウィンドウに分割し、そして次に腫瘍 - 正常サンプルペアの各ウィンドウについてRD、GC含有量および適合性スコアを得る。次にSamtools(Li et al、2009)、GATK UnifiedGenotyperおよびHaplotypeCaller(DePristo et al、2011)、Platypus(Rimmer et al、2014)、FreeBayes(Garrison)などの一SNVコールアプローチ採用している般的な方法で生殖細胞系列SNVを得る。第三に、本発明者らは、正常サンプルおよび腫瘍サンプルの両方について、高信頼性ヘテロ接合性生殖系列SNVを抽出し、次いで生殖系列SNV部位でリファレンスおよび代替対立遺伝子をそれぞれ支持するリードの数を得る。
HMMを使用して、腫瘍と正常ゲノムを正常コピー数領域、生殖細胞系CNV、およびSCNAに同時にセグメント化する。正常ゲノムと腫瘍ゲノムの両方に対して、5つの個別のコピーを定義する。
各ウィンドウの番号状態(0、1、2、3、4)。それぞれの番号は、2コピーの削除、1コピーの削除、通常のコピー番号領域、1コピーの複製、および複数コピーの複製をそれぞれ表す。我々は全てのSCNAが正常コピー数領域から変異すると仮定するので、各ウィンドウでの腫瘍 - 正常サンプル対ペアの可能なコピー数状態の組み合わせは 00、11、22、33、44、20、21、23、24である(以下略)。

  

 


インストール

ubuntu16.0でテストした。

依存

gradleはhomebrewで導入できる。

brew install gradle

#R package
R
> install.packages("Runiversal")
> install.packages("VGAM")
> install.packages("qcc")

本体 Github

git clone --recursive https://github.com/yongzhuang/TumorCNV.git 
cd TumorCNV/TumorCNV/

gradle build
cd build/libs/

> java -jar TumorCNV-0.1.0.jar -h

$ java -jar TumorCNV-0.1.0.jar -h

ERROR [2019-05-28 12:43:21,106]  [TumorCNV.java:31] [main]  Command is not recognized!

 

TumorCNV-0.1.0

 

Usage: java -jar TumorCNV.jar <COMMAND> [OPTIONS]

 

COMMANDS:

preprocess extract information

call call germline and somatic CNVs 

java -jar TumorCNV-0.1.0.jar preprocess

usage: java -jar TumorCNV.jar preprocess [OPTIONS]

 

-referenceSequenceFile <FILE> reference genome file (required)

-normalVCFFile <FILE> normal sample's vcf file (optional) 

-normalBAMFile <FILE> normal sample's bam file (required)

-tumorBAMFile <FILE> tumor sample's bam file (required)

-mappabilityFile <FILE> mappability file (required)

-outputPrefix <FILE> prefix of output file (required)

-windowSize <INT> window size (optional, default 500)

-minMappingQuality <INT> minimum mapping quality (optional, default 1)

-minBaseQuality <INT> minimum base quality (optional, default 20)

> java -jar TumorCNV-0.1.0.jar call 

$ java -jar TumorCNV-0.1.0.jar call 

ERROR [2019-05-28 12:43:41,178]  [TumorCNV.java:180] [main]  The read depth file is not correctly specified!

ERROR [2019-05-28 12:43:41,180]  [TumorCNV.java:184] [main]  The mappability file is not correctly specified!

ERROR [2019-05-28 12:43:41,180]  [TumorCNV.java:188] [main]  The output prefix is not correctly specified!

 

usage: java -jar TumorCNV.jar call [OPTIONS]

 

-rdFile <FILE> read depth file (required)

-afFile <FILE> allele frequency file (optional)

-mappabilityFile <FILE> mappability file (required)

-outputPrefix <FILE> prefix of toutput file (required)

-exclude <FILE> exclude regions

-transitionProb <FLOAT> transition probability of different states (optional, default 0.00001)

-minMappability <FLOAT> minimum mappability of window (optional, default 0.3)

-minDisatance <INT> minimum distance to merge adjacent CNVs (optional, default 10000)

-purity <FLOAT> tumor purity (optional, default 1.0)

-ploidy <INT> tumor ploidy (optional, default 2)

-outlier <FLOAT> the percentage of outliers (optional, default 0.1)

-nt <INT> number of threads (optional, default 1)

 

 

テストラン

データの準備

#sample data
wget http://182.92.97.240/exchange/190419/example.zip

wget http://hgdownload.cse.ucsc.edu/goldenpath/hg19/encodeDCC/wgEncodeMapability/wgEncodeCrgMapabilityAlign100mer.bigWig

#reference
wget ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz

 

1、prerpocess

リファレンス、mappabilityファイル、normalとtumorのbamを指定する。

java -jar TumorCNV-0.1.0.jar preprocess \
-referenceSequenceFile hs37d5.fa.gz \
-normalBAMFile example/normal_example.bam \
-tumorBAMFile test/example/tumor_example.bam \
-mappabilityFile wgEncodeCrgMapabilityAlign100mer.bigWig \
-outputPrefix output  

output.NDが出力される。 

 

 2、call

.NDファイルを指定して実行する。

java -jar TumorCNV-0.1.0.jar call \
-rdFile output.ND
-mappabilityFile wgEncodeCrgMapabilityAlign100mer.bigWig \
-outputPrefix result

result.Somaticとresult.Germlineが出力される。 

 

引用

Joint detection of germline and somatic copy number events in matched tumor-normal sample pairs
Yongzhuang Liu Jian Liu Yadong Wang
Bioinformatics, Published: 24 May 2019