macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

シングルブレイクエンドバリアントと構造バリアントのフェージングにより体細胞構造変異の包括的な評価を行う GRIDSS2

 

 GRIDSS2 は、片側のみが明確に決定できるブレイクポイントであるシングルブレイクエンドを明示的に報告する初めての構造的バリアントコーラーである。シングルブレイクエンドをブレイクポイントと同様に基本的なゲノムリアレンジメントシグナルとして扱うことで、GRIDSS2は、非セントロメア配列へのシングルブレイクエンドを用いて体細胞セントロメアのコピー数変化の47%を説明することができる。3782個の詳細な塩基配列を持つ転移性ガンのコホートにおいて、GRIDSS2は3.1%の偽陰性率と3.3%の偽発見率を達成し、32-100 bp重複の新規シグネチャを同定した。GRIDSS2は、ペアエンドシーケンスを用いて16%の体細胞コールをフェージングでき、構造的バリアントのフェージングによる複雑なリシークエンシングの解釈を簡素化する。

 

”シングルブレイクポイントは、片側だけが明確に配置できるブレイクポイントです。Single breakendsは5年以上前からVCFの仕様にありましたが、今まで実際に呼び出すツールがなかった。シングルブレイクポイントを呼び出さないことで、ブレイクポイントコーラーは情報を破棄し、不必要にFNRを増加させていました。”

 

Quick start guide

https://github.com/PapenfussLab/gridss/blob/master/QuickStart.md

 

インストール

レポジトリではあまり推奨されていないが、condaを使って導入した。

依存

To run GRIDSS the following must be installed:

  • java 1.8 or later
  • R 4.0 or later

gridss_somatic_filter and gridss_extract_overlapping_fragments require the

  • following R libraries:
  • argparser
  • tidyverse
  • stringdist
  • testthat
  • stringr
  • StructuralVariantAnnotation
  • rtracklayer
  • BSgenome package for your reference genome (optional)
  • samtools 1.13 or later
  • bwa
  • bash
  • getopt(1) (part of util-linux)

Github

 

#conda(link)
mamba create -n gridss gridss
conda activate gridss

> gridss

Using working directory "."

Wed Aug 17 01:25:09 JST 2022: Full log file is: ./gridss.full.20220817_012509.kazu.34568.log

Wed Aug 17 01:25:09 JST 2022: Found /usr/bin/time

Wed Aug 17 01:25:09 JST 2022: Using GRIDSS jar /home/kazu/mambaforge/envs/gridss/share/gridss-2.13.2-1/gridss.jar

Wed Aug 17 01:25:09 JST 2022: Using reference genome ""

Wed Aug 17 01:25:09 JST 2022: 

Usage: gridss [options] -r <reference.fa> -o <output.vcf.gz> -a <assembly.bam> input1.bam [input2.bam [...]]

 

    -r/--reference: reference genome to use.

    -o/--output: output VCF.

    -a/--assembly: location of the GRIDSS assembly BAM. This file will be

        created by GRIDSS.

    -t/--threads: number of threads to use. (Default: 8)

    -j/--jar: location of GRIDSS jar

    -w/--workingdir: directory to place GRIDSS intermediate and temporary files

        .gridss.working subdirectories will be created. (Default: .)

    -b/--blacklist: BED file containing regions to ignore

    -s/--steps: processing steps to run. Defaults to all steps.

        Multiple steps are specified using comma separators.

        Possible steps are:

        setupreference, preprocess, assemble, call, all

        WARNING: multiple instances of GRIDSS generating reference

        files at the same time will result in file corruption.

        Make sure these files are generated before runninng parallel

        GRIDSS jobs.

    -c/--configuration: configuration file use to override default GRIDSS

        settings.

    -l/--labels: comma separated labels to use in the output VCF for the input

        files. Supporting read counts for input files with the same label are

        aggregated (useful for multiple sequencing runs of the same sample).

        Labels default to input filenames, unless a single read group with a

        non-empty sample name exists in which case the read group sample name

        is used (which can be disabled by "useReadGroupSampleNameCategoryLabel=false"

        in the configuration file). If labels are specified, they must be

        specified for all input files.

    --externalaligner: use the system version of bwa instead of the in-process

        version packaged with GRIDSS (default)

    --internalaligner: use the in-process version of bwa instead of system

        version. Faster but alignment results can change between runs.

    --jvmheap: size of JVM heap for the high-memory component of assembly and

        variant calling. (Default: 30g)

    --otherjvmheap: size of JVM heap for everything else. Useful to prevent

        java out of memory errors when using large (>4Gb) reference genomes.

        Note that some parts of assembly and variant calling use this heap

        size. (Default: 4g)

    --skipsoftcliprealignment: [EXPERIMENTAL] skip soft clip realignment.

        Reduces runtime for aligners that report split read alignments.

    --maxcoverage: maximum coverage. Regions with coverage in excess of this

        are ignored. (Default: 50000)

    --picardoptions: additional standard Picard command line options. Useful

        options include VALIDATION_STRINGENCY=LENIENT and COMPRESSION_LEVEL=0.

        https://broadinstitute.github.io/picard/command-line-overview.html

    --useproperpair: use SAM 'proper pair' flag to determine whether a read

        pair is discordant. Default: use library fragment size distribution to

        determine read pair concordance.

    --concordantreadpairdistribution: portion of 6 sigma read pairs distribution

        considered concordantly mapped. (Default: 0.995)

    --keepTempFiles: keep intermediate files. Not recommended except for

        debugging due to the high disk usage.

    --nojni: do not use JNI native code acceleration libraries JNI libraries:

        snappy, GKL, ssw, bwa

    --jobindex: zero-based assembly job index. Only required when performing

        parallel assembly across multiple processes.

    --jobnodes: total number of assembly jobs. Only required when performing

        parallel assembly across multiple processes.

    

Wed Aug 17 01:25:09 JST 2022: Reference genome must be specified. Specify using the --reference command line argument

"exit $EX_USAGE" command completed with exit code 64.

*****

The underlying error message can be found in ./gridss.full.20220817_012509.kazu.34568.log

*****

 

 

実行方法

リファレンスとbwa memで作成したbamファイル(-aオプションは付けない事)を指定する。

gridss --reference reference.fa --output output.vcf.gz --threads 20 --assembly assembly.bam --workingdir workdir --steps All -b exclude_list.bed --labels input1,input2,... input1.bam input2.bam [...]

出力例

 

詳細はレポジトリのFAQなどを確認して下さい。詳しく説明されています。

引用

GRIDSS2: comprehensive characterisation of somatic structural variation using single breakend variants and structural variant phasing
Daniel L. Cameron, Jonathan Baber, Charles Shale, Jose Espejo Valle-Inclan, Nicolle Besselink, Arne van Hoeck, Roel Janssen, Edwin Cuppen, Peter Priestley & Anthony T. Papenfuss 
Genome Biology volume 22, Article number: 202 (2021)