リピート拡張は、神経疾患における遺伝的変異の重要なクラスである。しかしながら、従来のシークエンシング法を用いた新規なリピート拡張の同定は、ショートシークエンシングリードに対するそれらの典型的な長さ、およびリピート配列への正確でユニークなアラインメントを生成することの難しさのために、課題となっている。しかし、この後者の特性をペアエンドシークエンシングデータに利用することで、リピート拡張やその他の構造変化の可能性のある位置を推測することができる。
この論文では、ペアエンドのショートリードシークエンシングデータから、適切にマップされたmateがいない遺伝子座に向けられたリードの割合を報告することで、リピート拡大遺伝子座を推定するコマンドラインユーティリティであるREscanを紹介する。データの母集団に対するREscan統計量が高い場合は、実験的な追跡調査のためのリピート拡大遺伝子座を示唆している。このアプローチは、筋萎縮性側索硬化症の259例のゲノム配列データを用いて検証されており、そのうち24例はC9orf72の大きなリピート拡大が陽性であり、REscan統計はリピート拡大キャリアと非キャリアを容易に区別できることを示している。C のソースコードは https://github.com/rlmcl/rescan (GNU General Public Licence v3) にある。
REscanは、リピート拡張の存在を反映している可能性がある領域にまたがっている、不完全にペアリングされたリードの数をカウントするシンプルなツールである。結果は、マッピングされていない、または遠くにマッピングされたメイトを持つリードの割合として報告される。出力は、REscan統計量のrx/rtを表すフィールドRSを持つVCF形式で、ここでrxはlocusに向かってマップされていないリードの数(VCF出力ではBMまたは "badmapped "として表される)、rtはlocusに向かってマップされている(近くにある)リードの総数(VCF出力ではBMとGMまたは "goodmapped "の合計)である。
インストール
macos10.14でテストした。
依存
- samtools
本体 Github
git clone https://github.com/rlmcl/rescan
cd rescan
gcc -w -o rescan rescan.c
sudo cp rescan /usr/local/bin
> rescan -h
$ rescan -h
------------------------------------------
REscan version 1.0.0
Russell McLaughlin, Trinity College Dublin
GNU General Public License v3
------------------------------------------
Usage: samtools view in.bam [ region ] | rescan [ options ]
Options:
--regions (-r) FILE : file name for bed-format, position-sorted regions (currently unspecified)
--id (-i) STRING : sample ID (NA)
--chr (-c) STRING : chromosome for reporting rescan statistics ()
--start (-s) INT : start position for reporting rescan statistics (-1)
--end (-e) INT : end position for reporting rescan statistics (max position in bam)
--jump (-j) INT : number of bases to jump by in printing output (1)
--distance (-d) INT : up/downstream distance for searching (200)
--maxfrag (-m) INT : maximum fragment length allowed (50000)
--minq (-q) INT : minimum mapping quality for good reads (20)
--help (-h) : print this help message
実行方法
bamファイルと染色体名を指定する。
samtools view input.bam chr9 | rescan > output.vcf
引用
REscan: inferring repeat expansions and structural variation in paired-end short read sequencing data
Russell Lewis McLaughlin
Bioinformatics, Published: 26 August 2020