macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

高速なハプロタイプバリアントコーラー LocHap



 Somatic mosaicismとは、単一の生物学的サンプル中の体細胞の一部に体細胞変異が存在することである。その重要性は主に理論的に議論されてきたが、実験的な研究により体細胞モザイクと疾患診断との関連性が明らかになりつつある。本研究では、健康なドナーの血液由来DNAと腫瘍サンプルのDNAを用いたペアエンドDNA配列データを統計的にモデル化し、同じリードによってscaffoldsとなっている複数の一塩基変異(SNV)を検索する超高速計算機パイプラインLocHapを紹介する。このスキャフォールドされたSNVをローカルハプロタイプ(LH)と呼ぶ。1つのLHが2つ以上の遺伝子型を示す場合、ここではそれをローカルハプロタイプバリアント(LHV)と呼ぶ。遺伝的に均質な細胞集団にはLHVは存在しないため、LHVの存在は体細胞モザイク性の証拠と考えられている。正常血液および腫瘍サンプルから得られたDNAの全ゲノムおよび全ゲノム配列データにLocHapを適用したところ、ゲノム全体にLHVが広く分布していることがわかった。重要なことは、腫瘍検体では正常検体よりも多くのLHVが検出され、高齢者では若年者よりも多くのLHVが検出されたことである。著者らは、正常な血液サンプルを用いた検証研究により、LHVs の存在と体細胞モザイク性を確認している。LocHap は http://www.compgenome.org/lochap で公開されている。

 

version1.0のquick manual

http://www.compgenome.org/lochap/code_release/QuickManual-LocHap-release-v1.0.pdf

 

インストール

macosでビルドした(macbook pro2015を使用、OSはmacos10.14)。

HP

HPからダウンロードして解凍する。ここではVersion 2.0を選んだ。

cd LocHap-release-v2.0/
./install.sh

./LocHap -h

$ ./LocHap -h

LocHap: unrecognized option `-h'

>>>>> Error:  Please specify name of VCF File

>>>>> Error:  Please specify name of BAM File

>>>>> Error:  Please specify name of Sample to analyze

 

SYNOPSIS (HCF format):

./LocHap --vcf VCF_FILE_NAME --bam BAM_FILE_NAME --sample SAMPLE_NAME [--sig --out OUTFILE --size BLOCK_SIZE --qual Min_QUAL]

 

SYNOPSIS (IGV format):

./LocHap --vcf VCF_FILE_NAME --bam BAM_FILE_NAME --sample SAMPLE_NAME [--sig --out OUTFILE --size BLOCK_SIZE --qual Min_QUAL --igv]

 

Option Type Meaning

------  ----    -----------------------------------------------------

vcf string (required) Name of VCF file to analyze for identifying blocks

 

bam string (required) Name of BAM file for getting read based haplotypes

 

sample string (required) Name of sample to examine in the VCF file

The BAM file must correspond to this sample

This sample must be included in the VCF file

 

sig Flag (optional) Sets a flag for printing only blocks with at least

one significant haplotyope called

defaults to ==> 0: all blocks will be printed

 

out string (optional) Prefix of output file.  (Defaults to <sample>)

 

size int (optional) size of blocks while analyzing VCF

(default = 500 NTs; must be between 50 and 1000)

 

qual int (optional) ignore all reads with Phred-scaled Mapping Quality less than this.

Ignore all bases with Base Quality less than this

(default = 30; must be greater than 15)

 

igv Flag (optional) Sets a flag for printing in format suitable for loading into igv

defaults to ==> 0: prints in native hcf format

Output file name is <sample>.hcf or <sample>.igv, based on this choice

 

 

>>>>> Error: User command error !

 

 

テストラン

LocHap --vcf ../example/tiny.vcf --bam ../example/NA12878_tiny.bam --sample NA12878 --igv

出力

f:id:kazumaxneo:20210116113857p:plain

NA12878.hcf

f:id:kazumaxneo:20210116114701p:plain

 

LocHapの出力はHaplotype Call Format (hcf )で書き出される。hcf ファイルは vcf と同様のタブ区切りのテキストファイルである。このファイルには、いくつかのヘッダーフィールドがあり、フィールド名とその説明が含まれている。最初のヘッダフィールドの後、hcf ファイルの各行はローカルハプロタイプ(バリアントではないかもしれない)を表し、左から右へ7つのカラムフィールドがあり、以下のように表示される。染色体名 (CHROM)、染色体上の位置 (POS)、リファレンスゲノム内のそれらの位置のヌクレオチド (REF)、有意なハプロタイプの数 (NumSig)、ハプロタイプコール (HAP-Call)、すべての可能性のあるハプロタイプ (All-HAP)、サンプルのデータ (DataForSample=Pleasess_27E8sample-name-asample-asample-name-asamplePe_27E9asample) がある。
Hap-Call" フィールドには、統計的に有意であると判断された各ハプロタイプ・バリアントの事後確率が含まれている。All-HAP "フィールドには、各可能性のあるハプロタイプの事後確率(セミコロン前)とそれに対応する事後偽発見率(FDR)(セミコロン後)が含まれている。Hap-Call "フィールドのハプロタイプバリアントは、"All-HAP "フィールドのハプロタイプバリアントから0.01のFDR閾値を用いて生成される。
最後のフィールドには、入力データに関するいくつかの基本的な統計情報が記載されており、SNPの総数(nSNP)、リードの総数(nTot)、SNPの位置に少なくとも1つのエントリを持つリードの数(nACGT)、ブランクリードの数(nBlank)が含まれる。不一致リードの数(nDisc)、1つの位置または2つの位置または3つの位置に欠落したエントリーがないリードの数(nM0、nM1、nM2、nM3)、データから直接観測されたクラスターの数(nClus)。欠落したSNPがないデータのユニークなグループの数は、クラスタの数を定義することに注意する。 

オプションの "igv "フラグを設定すると、IGVを使用して可視化できる.igvファイルが生成される。このファイルがIGVに読み込まれると、SNVが色付きのドットで表示され、LHVに属するSNPは赤いバーで示され、LHVに属さないSNPは青いバーで示される。

f:id:kazumaxneo:20210116114343p:plain

(マニュアルより)

 

引用

Ultra-fast local-haplotype variant calling using paired-end DNA-sequencing data reveals somatic mosaicism in tumor and normal blood samples

Subhajit Sengupta, Kamalakar Gulukota, Yitan Zhu, Carole Ober, Katherine Naughton, William Wentworth-Sheilds, Yuan Ji

Nucleic Acids Res. 2016 Feb 18;44(3)