macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

circulating cell free DNAから超高感度な変異検出を行う SiNVICT

 

 精密腫瘍学(precision oncology)の最も有望な分野の1つは、患者に合わせたカスタムターゲット療法の開発である。このような療法の開発および効率的な適用を成功させるには、患者の腫瘍DNAの治療誘発性変化の効率的かつ安価な同定手段とモニタリング方法を必要とする。残念なことに、特に進行性のガンでは、ガンの罹患率および死亡率の主な原因は、組織サンプリングに容易にアクセスできない複数の転移性病変の発生である。例えば、前立腺ガンでは> 90%以上の転移が骨および/または深部リンパ節で起こる(Bubendorf et al、2000)。このような部位を生検は患者の死亡率と関連してしまうため、したがって一般的には行われない。

 1948年以来、哺乳類の血液中に循環している無細胞DNA(cfDNA)の存在が知られている(Mandel、1948)。 cfDNAは細胞死に至る(壊死/アポトーシス)細胞(正常および腫瘍の両方)から放出されると考えられている - 1994年、癌患者の血液中に変異RAS遺伝子断片が検出された(see Schwarzenbach et al 、2011年)。 cfDNAを生成する非特異的メカニズムは、サンプリング変動の対象となる患者の全ての腫瘍DNAを、そしておそらく腫瘍の血流への完全な表現となる。以前の研究では、例えば、著者たちは、去勢抵抗性前立腺癌(CRPC)患者のcfDNAから様々な変異型AR(アンドロゲン受容体)遺伝子の存在を観察したが(Azad et al、2015)、これをもっとも説明できるのはそれぞれの患者の体内に癌細胞に複数のsubpopulationsが存在していたということである。複数の腫瘍foci / subclonesのこの完全な表現は、腫瘍由来のDNA源としての血漿の使用に重要な利点を提供する。残念なことに、患者の血液中に正常および腫瘍DNA両方が存在していることは、cfDNAシーケンシング分析に重大な問題を提起する。事態を悪化させているのは、腫瘍DNAは複数のサブクローンに由来することが多く、従って高度にheterogeneousであることである(一部略)。

 特定の集団内の1塩基変異(SNV)およびindelsを見出すために、体細胞および生殖細胞系や同時に複数サンプリングしてのWhole Genome Shotgun Sequencingを使用して突然変異コーラーが存在する。例えば、GATK(McKenna et al、2010)、VarScan2(Koboldt et al、2012)、Freebayes(Garrison and Marth、2012)、Strelka(Saunders et al、2012)(Strelka2の簡単な紹介)、MuTect(Cibulskis et al、2013)その他。これらのツールのほとんどは、頻度論またはベイズのアプローチを使用して、遺伝子座のバリアントコールがノイズ由来の偽陽性コールなのか(シーケンシングまたはマッピングエラー)、真の突然変異なのか推定する。その中でも、VarScan2はいくつかの発見的手法を使用して候補セットのサイズを縮小し、フィッシャーの正確検定のようないくつかの統計的検定を腫瘍/良性腫瘍ペアに適用して体細胞突然変異をコールする。さらに、strand biasなどの追加要因に基づきフィルタリングを可能にするポストプロセッシング機能も備えている。 Freebayes、MuTect、Strelkaなどの他のツールは、変異を呼び出すためにベイジアンの文脈で突然変異している場所の前後の確率を利用する。残念なことに、これらのツールは次のようなデータに対応していない、(i)患者の複数の時点からのシーケンシングデータ、(ii)非常に高いリードデプス(平均20〜30 k、90 kまで、おそらく将来的にはより高い)、(iii)極端に低い希釈率(約0.01%の変異の対立遺伝子パーセンテージ(Lipson et al、2014)、(iv)腫瘍内のheterogeneityが高いサンプル、または(v)システマティックなノイズの多いサンプル。さらに、ctDNAレベルは、限局性疾患を有する患者および治療を受けた患者における既存のctDNA検出アプローチの分析感度(Bettegowda et al、2014)よりも低くなり得る。

 上記の問題に対処するために、非常に高いリードデプスと非常に低い希釈率を扱える計算ツールSiNVICTを紹介する。 SiNVICTは、単一の腫瘍サンプル、複数の腫瘍サンプルバッチ、または単一の患者の複数時点でシーケンスされた複数サンプルで実行できる。この機能により、SiNVICTは1人の患者の複数のガンステージの同時シーケンシング解析や、異なる患者グループサンプルの同時シーケンシング解析ができる。これらのサンプルが類似の疾患進行および希釈レベルを有する場合、SiNVICTはその系統的なノイズを特徴付けるためにバッチの信号対雑音比(SNR)を利用し、シーケンシングされた領域のノイズの不均一性による偽陽性コールを減らそうと努力する。

 2つのシークエンシングプラットフォームで得られた同じ腫瘍サンプルのデータを使いSiNVICTの堅牢性を評価した(Illuminaの0.1%置換; IonTorrentの1%indel (Glenn、2011)]。著者らの実験は、SiNVICTが両方のシーケンシングプラットフォームで生成されたデータのコールに非常に敏感であることを示している。(一部略)。

 重要なことであるが、SiNVICTはユニークな問題に対処するものであり、既存の一般的なSNVおよびindelコーラー(例えばゲノム解析ツールキット)には匹敵しない。それらのツールは、シーケンシングデプスが高いデータセットの一部を処理するのが一般的で、 同じリードはPCR duplicatesとしてマークされる。しかしながら、ディープアンプリコンシーケンシングでは、同一のリードは必ずしもPCRアーティファクトとはならない、

 

gene target amplicon sequencing向けのツールです。論文では、SiNVICTの評価に、イルミナのIllumina DesignStudio (リンク)(*1)で作った14遺伝子のプローブ配列mixtureを使ったアンプリコンシーケンシングを行っています。

 

SiNVICTに関するツイート。


インストール

cent os7に導入した。

本体 Github

git clone --recursive https://github.com/sfu-compbio/sinvict.git
cd sinvict/
make

./sinvict -h

$ ./sinvict -h

 

SiNVICT: Ultra Sensitive Detection of Single Nucleotide Variants and Indels in Circulating Tumour DNA.

 

Allowed arguments:

--help or -h : Print help message.

--error-rate or -e : Error rate for the sequencing platform used.

--min-depth or -m : Minimum Read Depth required for high confidence in a call.

--left-strand-bias or -l : Lower limit for the strand bias value interval to be used in assessing the confidence of a call.

--right-strand-bias or -r : Upper limit for the strand bias value interval to be used in assessing the confidence of a call.

--read-end-fraction or -f : Average position of the called base on the reads supporting the call as a fraction.End values such as 0.01 as useful for filtering read end artifacts.

--qscore-cutoff or -q : Cutoff value for the qScore assigned to each call by the Poisson model used.

--tumor-directory-path or -t : Specifies directory for the input files.

--output-directory-path or -o : Specifies directory for the output files.

--use-poisson-germline or -s : Use a more robust poisson model to guess somatic/germline status.

 

--tumor-directory-path and --output-directory-path must be specified

 

Usage: ./sinvict -e=[error-rate] -m=[min-depth] -l=[left-strand-bias] -r=[right-strand-bias] -f=[read-end-fraction] -q=[qscore-cutoff] -t=<tumor-directory-path> -o=<output-directory-path> -s=<use-poisson-germline>

 

ラン

SiNVICTを使うにはbamを作成し、リードカウントを得る必要がある。著者は以下の手順で進めることを推奨している。

  1. Trimming FASTQ files (optional, fastq->fastq).
  2. Mapping (fastq -> bam).
  3. Recalibration and error correction (optional, bam -> bam).
  4. Obtaining mapping statistics per location (bam -> readcount).

(1) クオリティトリミングしアダプターが残っているなら除く。(2) bwaやmrFASTでマッピングしてbamを作成し、(3) ABRAなどで不正確なアライメントを改善しノイズを減らす(紹介)。(4) bam-readcountを使ってリードカウントを得る(紹介)。

 

出力されたテキストファイルをディレクトリ(ここではread-count_dir/ とする)に収納し、SiNVICTのコマンドを実行する。複数サンプルあるなら、全てディレクトリに収納しておく。

mkdir output
sinvict -t read-count_dir -o output
  • --min-depth    Minimum required read depth for a call to be considered reliable. (Default: 100)
  • --error-rate    Error Rate for the sequencing technology used (e.g. Illumina, Ion Torrent, ...) (Default: 0.01)
  • --left-strand-bias and --right-strand-bias    The strand bias values in the range [leftStrandBias, rightStrandBias] will be considered reliable. This [lsb, rsb] interval has to be between [0,1]. (Defaults: 0.3 and 0.7)
  • --read-end-fraction    Despite the trimming step, calls can be marked as low confidence according to the average position of the base on the reads that support a call. This value should be within range 0-1. (Default: 0.01)
  • --qscore-cutoff    The poisson model used by SiNVICT assigns a QScore to every call. Calls with a QScore below the user defined threshold will be considered low confidence. This value should be in range 0-99. (Default: 95)
  • --tumor-directory-path    The path to the directory where the readcount files are located.
  • --output-directory-path    The path to an empty directory where the output files will be generated.

結果はoutput/に出力される。 

$ ls -lth output/

合計 16K

-rw-rw-r--. 1 parallels parallels 7.8K  7月 28 22:55 calls_level1.sinvict

-rw-rw-r--. 1 parallels parallels 7.5K  7月 28 22:55 calls_level2.sinvict

-rw-rw-r--. 1 parallels parallels 7.3K  7月 28 22:55 calls_level3.sinvict

-rw-rw-r--. 1 parallels parallels 7.1K  7月 28 22:55 calls_level4.sinvict

-rw-rw-r--. 1 parallels parallels    0  7月 28 22:55 calls_level5.sinvict

-rw-rw-r--. 1 parallels parallels    0  7月 28 22:55 calls_level6.sinvict

フィルタリングレベルで6つのバリアントコールが出力される。6のcalls_level6.sinvictが全てのフィルタリングをクリアしたファイルとなる。テスト時は5でサイズがゼロになった。

  1. Poisson model: calls_level1.sinvict
  2. Minimum Read Depth filter: calls_level2.sinvict
  3. Strand-bias filter: calls_level3.sinvict
  4. Average position of called location among all reads supporting the call: calls_level4.sinvict
  5. Signal-to-Noise ratio filter: calls_level5.sinvict
  6. Homopolymer Regions filter: calls_level6.sinvict

出力はVCFに似た形式です。各フィールドはGIthubのページで解説されています。

 

引用

SiNVICT: ultra-sensitive detection of single nucleotide variants and indels in circulating tumour DNA.
Kockan C, Hach F, Sarrafi I, Bell RH, McConeghy B, Beja K, Haegert A, Wyatt AW, Volik SV, Chi KN, Collins CC, Sahinalp SC
Bioinformatics. 2017 Jan 1;33(1):26-34

 

参考

*1

DesignStudioを用いたプローブデザインの方法と最適化のヒント

https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/2016_ilmn_webinar_designstudio_session1.pdf