macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

tumor heterogeneityを見積もるGenoClone

 

 腫瘍の進化は、連続的な体細胞変異とダーウィン的な自然淘汰によって引き起こされるクローン増殖の反復過程である[ref.1、2]。したがって腫瘍は、腫瘍内異質性と呼ばれる顕著な異なる細胞集団(「サブクローン」と呼ばれる)で構成されている。腫瘍サンプル内のサブクローンの明示的な研究は、腫瘍の進化の理解を大いに向上させることができ、したがって医薬品開発と精密医療に利益をもたらす[ref.3、4]。たとえば、乳がんでは腫瘍内の不均一性が示されているため[ref.5, 7]、治療抵抗性のサブクローンでは標的療法が機能しない可能性がある[ref.8]。さらに、耐性サブクローンはその後の治療の成功率を低下させ、腫瘍の再発や治療の失敗につながる可能性がある[ref.9]。したがって、サブクローンを正しく識別し、腫瘍内研究のためにそれらの割合を推定することが重要である。

 新しいシークエンシング技術の開発により、腫瘍の不均一性についてゲノムワイドな研究を行うことが可能になった[ref.10-12]。腫瘍全体のバルクシーケンシングでの交絡要因を回避できるシングルセルシーケンシングは、不均一性の問題に取り組むために有用である[ref.13、14]。しかしながら、増幅バイアスおよび対立遺伝子ドロップアウトの技術的問題[ref.15、16]に加えて、シングルセルシーケンシングは、サブクローンの同定およびそれらの画分の推定に必要とされる多数のシングルセルシーケンシングの高コストによっても制限される 。あるいは、全腫瘍試料のバルクシーケンシングとそれに続く適切なバイオインフォマティクス分析による腫瘍サブクローンの同定は、より手頃な価格であり、したがってより広い有用性がある。

 サブクローンのフラクションはVAFと直線的に関連しているため、最近の研究では、バルクシーケンシングから腫瘍サブクローンを推論するために、一塩基変異または変異の変異対立遺伝子頻度(VAF)が使用されている。観察されたVAFは、ライブラリーから断片を選択する確率的過程に依存するので、それはシーケンシングデプスと強く相関する。ディープシーケンスはVAFの不確実性に対処するのに役立つ。Roth et alは腫瘍サブクローンを同定するために、統計的推論モデルPyCloneを開発した[ref.19]。 PyCloneは、全ゲノムまたはエキソームシーケンシングデータによって体細胞変異およびコピー数変異を同定し、次にターゲットディープシーケンシングを適用してVAFを推定する。しかし、PyCloneはサブクローンの割合ではなく、各変異の細胞量を推定するだけである。クラスタリングアプローチに基づく他の既存のツールは、観察されたVAF測定の実質的な変動性を克服し、さらにサブクローンの割合を推論する[ref.20、21]。たとえば、SciCloneは Dirichlet Process mixture modelに基づいてVAFの事後確率を最大化するが、クラスタの数は事前には決められない。その後、SciCloneは、モデルに寄与しないクラスターを破棄することによってバリアントクラスターの数を特定し、最後にサブクローンの割合を推定する。しかしながら、VAFに加えて、サブクローンの割合は遺伝子型にも依存する。例えば、変異がアデニンからグアニン(AからG)である場合、変異のgenotypeはAGまたはGGになる。Lee et alはサブクローン数とそれらの割合を識別するベイズ特徴配分モデルを開発した[ref.22]が、これは同時に解の空間を増加させ、それ故、解のより高い不確実性をもたらす。バリアントのgenotype決定およびVAFの不確実性の低減は、サブクローン推論における主な問題である。

 各サブクローンのバリアントgenotypeを直接決定することは、変異が父系または母系の対立遺伝子に由来するかどうかを同定することである[ref.23–25]。しかしながら、父方および母方の対立遺伝子全体を得ることは困難である(例えば、家族のトリオデータが必要とされる)。代わりに、体細胞変異(すなわちsomatic single-nucleotide variant / sSNV)と生殖細胞系変異(すなわちsingle-nucleotide polymorphism / SNP)との間の連鎖が知られている場合、sSNVの起源を決定することができる:母方、父方または両方。正常サンプルと腫瘍サンプルの一致したペアは同じSNPを共有するため、シーケンスデータのSNPとsSNVを最初に区別できる。その後、sSNV-SNP結合は、ロングリード(例えば、Pac​​Bio、Oxford Nanopore Technologiesおよび454シーケンシング)、またはsSNVおよび対応する隣接SNPをカバーするペアエンドリードから検出することができる。この連鎖情報は、解空間の次元を縮小することができ、したがってより正確なサブクローン推論を得ることができる。

 我々は、VAFと遺伝子型のsSNVを革新的に統合することにより、腫瘍の不均一性を研究するための新しい方法、GenoClone(http://www.healthcare.uiowa.edu/labs/ au/GenoClone/)を開発した(論文図1)。 2つの既存の方法と比較して、GenoCloneはサブクローンの数を同定し、それらのフラクションを推定し、そしてシミュレーションデータにおいてそれらのsSNV組成を決定する優れた性能を示した。 GenoCloneによって、著者らはThe Cancer Genome Atlas(TCGA-BRCA)からの389の乳房浸潤癌サンプルを分析し、そしてほぼ全てのサンプルにおいて腫瘍の不均一性を明らかにした。結果はまた、癌遺伝子PIK3CAおよび腫瘍抑制遺伝子TP53の突然変異が乳癌の腫瘍発生の後期段階で起こり得ることを示した。さらに、167個のサンプルから同定されたサブクローン間の類似性分析は52個のサブクローンの高い類似性を示し、それらは24、14および14のサイズを有する3つのグループにクラスター化された。

(一部略)

sSNV-SNPリンケージ

 サブクローンのハプロタイプを推測するために、sSNV間の関連性を得ることが理想的である。 sSNVはゲノム内で長距離離れているので、sSNV間でこのような結合を得るためには、ロングリードによる全ゲノムシーケンシングが必要である。しかしながら、ロングリードによる全ゲノムシーケンシングは高コストであり、そして原発性腫瘍試料が提供し得ないかもしれない大量のDNA材料を必要とする。 sSNV間の結合の代わりに、sSNVと隣接するSNPとの結合(sSNV–SNP linkageと呼ばれる)は、ペアエンドリードまたはエキソームまたはロングリードの全ゲノムシーケンシングによって検出することができる。 SNVが与えられると、SNVが一方のハプロタイプまたは両方のハプロタイプに由来するのかどうかを同定するために隣接SNPを使用する。

 (以下略)

 

f:id:kazumaxneo:20190602175356p:plain

Flowchart of GenoClone. 論文より転載

 


 

 

チュートリアル

http://augroup.org/GenoClone/GenoClone/GenoClone_tutorial.html

 

インストール

HP

http://augroup.org/GenoClone/GenoClone/GenoClone_manual.html 

HPからダウンロードして解凍する。

tar -xzvf GenoClone-0.1.tar.gz

 

> GenoClone/bin/GenoClone -h #python

$ GenoClone/bin/GenoClone -h

usage: GenoClone [-h] -o OUTPUT

                 [--tempdir TEMPDIR | --specific_tempdir SPECIFIC_TEMPDIR]

                 varscan bam

 

Subclone inference by integrating VAFs and genotype of somatic mutations(SNV)

 

positional arguments:

  varscan               REQUIRED Input the output file from Varscan

  bam                   REQUIRED Input the alignment tumor bam file

 

optional arguments:

  -h, --help            show this help message and exit

  -o OUTPUT, --output OUTPUT

                        REQUIRED Output filename, totally it produce two

                        files, one '.csv' file for the composition of subclone

                        and the other '.pdf' file for the evaluation of

                        different number of subclones (default: None)

  --tempdir TEMPDIR     The temporary directory is made and destroyed here.

                        (default:

                        /var/folders/dy/5_xmxfts2jbdzlc1pb92j8mw0000gn/T)

  --specific_tempdir SPECIFIC_TEMPDIR

                        This temporary directory will be used, but will remain

                        after executing. (default: None)

 

実行方法

1、pileupして(samtools or sambamba)、varscanでSNVをvcf出力する。

#pileup
samtools mpileup -q 1 -f Reference.Genome Normal.bam > normal.pileup 
samtools mpileup -q 1 -f Reference.Genome Normal.bam > tumor.pileup

#varscan
varScan somatic normal.pileup tumor.pileup --output-vcf 1 --output-snp total_mutations.vcf

  

2、turmor heterogeneity出力

varscanの出力とtumor.bamを指定する。

GenoClone total_mutations.vcf Tumor.bam -o Tumor

  

引用

Revealing tumor heterogeneity of breast cancer by utilizing the linkage between somatic and germline mutations
Zou M, Jin R, Au KF

Briefings in Bioinformatics. 2018 Sep 18

 

関連