macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

タンデムリピートとその周辺のリードアラインメントをハプロタイプに分解して可視化する REViewer

2021 10/27、20/28追記

 

 ショートタンデムリピート拡張は、家族性筋萎縮性側索硬化症ハンチントン病をはじめとする多くの神経遺伝性疾患の原因となっている。最近では、全ゲノムやエクソームのシーケンスデータからリピートの拡大を同定する方法が複数開発されている。しかし、臨床現場ではバリアントコールを視覚的に評価する必要性が広く認識されているにもかかわらず、現在の計算ツールでは、リピート拡張を視覚的に表現する機能がない。リピート拡張は、リファレンスゲノムと比較して大きな挿入に対応し、多くのミスアラインメントや曖昧なアラインメントのリードを含むため、視覚化が困難である。

 長いリピート拡張を含むゲノム領域のシーケンスデータを可視化する計算手法であるREViewerを実装した。REViewerは、ハプロタイプの配列を再構築し、断片の長さやリードカバレッジの均一性に最も適した方法でリードをハプロタイプに分配して、リードのカバレッジを生成する。新規ユーザーを対象とした適切なトレーニング教材を作成するために,STR研究に携わる12人の科学者を対象としたコンコーダンス(一致性)調査を実施した.この研究の結果をもとに、REViewer の基本的な使用方法と、信頼性の低いリピート遺伝子型コールに対応するリードパイルアップの典型的な特徴を説明したユーザーガイドを作成した。さらに、44 個の FMR1 リピート対立遺伝子の視覚的評価結果とトリプレットリピートプライミング PCR の結果を比較することで、REViewer を使用して臨床的に関連するリピートの中断を注釈できることを実証した。これらの対立遺伝子のうち38個については、視覚的評価の結果と3回繰り返しのプライミングPCRの結果が一致した。

 REViewerで生成されたリードパイルアッププロットは、長いリピート拡張を含む領域のシーケンシングデータを直感的に視覚化する方法を提供する。REViewer を使用することで、リピート遺伝子型コールの品質を評価できるだけでなく、リピート配列やその周辺領域の中断やその他の不完全な部分を視覚的に検出することができる。

 

Githubより

REViewerは、タンデムリピートを含む領域のリードのアラインメントを視覚化するツールです。REViewerには、ExpansionHunterによって生成されたグラフでアラインされたリードを含むBAMletと、対応するバリアントカタログが必要です(REViewerは、ExpansionHunterによって生成されたリードのアラインメントを表示するように設計されている)。

 

REViewer: A Method for Visualizing Alignments of Short Reads in Regions Containing Long Repeat Expansions

https://www.illumina.com/science/genomics-research/articles/reviewer-alignments-short-reads-long-repeat.html

 

インストール

Github

git clone https://github.com/Illumina/REViewer.git
cd REViewer/
mkdir build; cd build
cmake ..
make -j
cd install/bin/

>  ./REViewer 

Program options:

  --help                                Print help message

  --version                             Print version number

  --reads arg                           BAMlet generated by ExpansionHunter

  --vcf arg                             VCF file generated by ExpansionHunter

  --reference arg                       FASTA file with reference genome

  --catalog arg                         Variant catalog

  --locus arg                           Locus to analyze (or a list of 

                                        comma-separated loci)

  --region-extension-length arg (=1000) Length of flanking region (must match 

                                        corresponding ExpansionHunter setting)

  --output-phasing-info                 Output results of the haplotype 

                                        estimation algorithm

  --output-prefix arg                   Prefix for the output files

 

 

実行方法

ExpansionHunterで得られたBAMletファイル(.bam)とVCFファイル、locus(variant_catalog.jsonを参照)を指定する。

REViewer --reads expansionHunter_realigned.bam --vcf expansionHunter.vcf --reference hg19.fasta --output-prefix output --catalog ExpansionHunter/variant_catalog/hg19/variant_catalog.json --locus AFF2

出力例(遺伝子は適当に選んだ)

f:id:kazumaxneo:20211028114325p:plain

 

ExpansionHunterで得られたBAMletファイル(.bam)はsortしないと使えなかった。
引用

REViewer: Haplotype-resolved visualization of read alignments in and around tandem repeats

Egor Dolzhenko,  Ben Weisburd, Kristina Ibanez Garikano, Indhu Shree Rajan Babu,  Mark F Bennett, Kimberley Billingsley, Ashley Carroll, Matt C. Danzi, Viraj Deshpande,  Jinhui Ding, Sarah Fazal,  Andreas Halman, Bharati Jadhav, Yunjiang Qiu, Phillip Richmond, Konrad Scheffler, Joke J.F.A van Vugt, Ramona R.A.J. Zwamborn, Genomics England Research Consortium, Samuel S. Chong, Jan M. Friedman, Arianna Tucci, Heidi L. Rehm,  Michael A Eberle

bioRxiv, Posted October 21, 2021

 

関連