macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ショートタンデムリピートと隣接する変異をgenotypingする ExpansionHunter

2021 10/26 出力について追記

 

 ショートタンデムリピート(STR)はヒトゲノム全体に遍在している。STRの生物学に関する我々の理解はまだ完全には程遠いが、新たな証拠は、STRが基本的な細胞プロセスにおいて重要な役割を果たしていることを示唆している(Gymrek et al、2016; Hannan、2018)。さらに、STRの拡張は、筋萎縮性側索硬化症、フリードライヒ失調症(FRDA)、ハンチントン病(HD)を含む20以上の重度の神経障害の主な原因となっている。

 ExpansionHunterはショートリードシーケンシングデータからSTRをジェノタイピングするための最初の計算手法であり、したがって、病原性リピートの拡張を検出することができた(Dolzhenko et al、2017)。ExpansionHunterの最初のリリース以来、いくつかの他の方法が開発され、長い(リード長よりも大きい)リピート拡張を正確に同定することが示された(Dashnow et al、2018; Mousavi et al、2019; Tang et al、2017; Tankard et al、2018)。

 現在の方法は、複数のリピートを有する複雑な遺伝子座を扱うように設計されていない。そのような遺伝子座の重要な例には、CCGリピートによって挟まれたHDを引き起こすHTT遺伝子中のCAGリピート、アデニンホモポリマーによって挟まれたFRDAを引き起こすFXN中のGAAリピート、およびACTリピートによって挟まれた8型脊髄小脳失調症(SCA8)を引き起こすATXN8中のCAGリピートが含まれる。さらに極端な例としては、CNBP遺伝子のCAGGリピートがあり、このリピートが拡大すると筋緊張性ジストロフィー2型(DM2)を引き起こす。このリピートは多型のCAリピートとCAGAリピートに隣接しており(Liquori et al、2001)、この遺伝子座に正確にリードをアラインメントすることは特に困難である。もう一つのタイプの複合リピートはポリアラニンリピートであり、これまでに少なくとも9つの障害と関連している(Shoubridge and Gecz, 2012)。ポリアラニンリピートは、α-アミノ酸コドンGCAGCC、GCG、またはGCGCT(すなわち、GCN)の繰り返しで構成されている。

 バリアントのクラスタは、アライメントおよびジェノタイピングの精度に影響を与え得る(Lincoln et al、2019)。低複雑性多型配列に隣接するバリアントは、バリアント発見のための方法が、そのようなゲノム領域において、不整合に表現された、またはスプリアスなバリアントコールのクラスタを出力し得るため、追加で問題となり得る。これは、一部では、シーケンスデータにおけるそのような領域のエラー率が高いことに起因している(Benjamini and Speed, 2012; Dolzhenko et al, 2017)。一例は、リンチ症候群Iを引き起こすMSH2のアデニンホモポリマーに隣接する一塩基変異である(Frogggatt et al、1999)。

 ここでは、上記のような複雑な遺伝子座を扱うために再実装されたExpansionHunterの新バージョン(v3.0.0)を紹介する。この実装では、各標的遺伝子座の一般的かつ柔軟なモデルとして、配列グラフ(Dilthey et al、2015; Garrison et al、2018; Paten et al、2017)を使用する。

 

Documentation


インストール

ビルド依存

  • A recent version of GCC or clang compiler supporting C++11 standard
  • CMake version 3.5.0 or above
  • Boost C++ Libraries version 1.57.0 or above

本体 Github

#bioconda (link)
mamba create -n expansionhunter-env -y
conda activate expansionhunter-env
mamba install -c bioconda -y expansionhunter

ExpansionHunter -h

$ ExpansionHunter -h

2020-04-11T20:48:30,[Starting Expansion Hunter v3.2.2]

Basic options:

  -h [ --help ]                         Print help message

  -v [ --version ]                      Print version number

  --reads arg                           BAM/CRAM file with aligned reads

  --reference arg                       FASTA file with reference genome

  --variant-catalog arg                 JSON file with variants to genotype

  --output-prefix arg                   Prefix for the output files

  --region-extension-length arg (=1000) How far from on/off-target regions to 

                                        search for informative reads

  --sex arg (=female)                   Sex of the sample; must be either male 

                                        or female

  --log-level arg (=info)               trace, debug, info, warn, or error

 

Advanced options:

  -a [ --aligner ] arg (=dag-aligner)   Specify which aligner to use 

                                        (dag-aligner or path-aligner)

  -m [ --analysis-mode ] arg (=seeking) Specify which analysis workflow to use 

                                        (seeking or streaming)

詳細は

> ExpansionHunter --help

 

実行方法

ランには、リファレンスとアラインメントのbam、 およびバリアントカタログファイルが必要。

#variant catalogのJSONファイルが必要
git clone https://github.com/Illumina/ExpansionHunter.git

#ここではhg38を指定。
ExpansionHunter --reads input.bam --reference ref.fa \
--output-prefix out \
--variant-catalog ExpansionHunter/variant_catalog/hg38/variant_catalog.json
  • --sex    Specifies sex of the sample; can be either male or female (default). This parameter only affects repeats on sex chromosomes.

  • --region-extension-length   Specifies how far from on/off-target regions to search for informative reads. Set to 1000 by default.

 

Expansion Hunterは、リピートの位置と遺伝子型に関する情報を含む、各リピートに対して個別の情報をVCFに出力する。また、サンプル・パラメータに関する情報と分析結果(LocusResultsフィールド)が含まれたJSONファイルを出力する。さらに、各バリアントにオーバーラップする、または近接して位置するリードのアライメントを含むBAMletを出力する。詳細は上にリンクを張ったDocunemt参照。

引用

ExpansionHunter: a sequence-graph-based tool to analyze variation in short tandem repeat regions
Egor Dolzhenko, Viraj Deshpande, Felix Schlesinger, Peter Krusche, Roman Petrovski, Sai Chen, Dorothea Emig-Agius, Andrew Gross, Giuseppe Narzisi, Brett Bowman ... Show more
Bioinformatics, Volume 35, Issue 22, 15 November 2019, Pages 4754–4756