逆位、重複、その他の医学的に重要な変異は、日常的な遺伝子解析では無視されがちである。リピートの性質と複雑さにより、最新の配列アラインメント手法では正確にアラインメントすることが困難である。本著者らは、この限界が、 linear edits(欠失、挿入、置換)のみによって相同配列を整列させようとする、現在の配列整列手法の基本的なアプローチに起因することを示す。ここでは、VACmapという革新的なマッピング手法を紹介する。VACmapは、 linear editsとnon-linear editsの両方を統合し、リードを分割したり直線的なサブアラインメントを組み立てたりすることなく、複雑なリアレンジメントを直接アラインメントする。VACmapは複雑な逆位を正確に同定する能力を実証しており、たとえ大きな断片重複の中にあっても同定できる。また、従来の方法ではアラインメントが困難であったLPA遺伝子のKIV-2リピートのブレイクポイントも正確に決定した。VACmapの斬新な非線形マッピングアプローチは、配列アライメント手法のパラダイムシフトを意味し、ゲノム変異の複雑なパターンを包括的に捉えることができる。
インストール
git clone https://github.com/micahvista/VACmap.git
cd VACmap
conda env create --name vacmap_env --file VACmap_environment.yml
conda activate vacmap_env
python setup.py install
現在helpは整備されていない。
実行方法
リファレンスのfastaファイルとロングリードを指定する。レポジトリの例ではsamtoolsにパイプしてcoordinateソートされたbamを出力している。”-mode S”設定を使用。
vacmap -ref ref.fasta -read read.fasta -mode S -t 8 | samtools sort -@4 > alignments.sorted.bam
samtools index -@4 alignments.sorted.bam
- -ref The path of reference sequence.
- -read The path of long reads.
- -t The number of threads to use. (Note: In asm mode, fewer threads results in lower memory usage.)
- -mode S|L|H|R|asm
-mode H For aligning high error rate long read (Pacbio CLR, ONT).
-mode L For aligning low error rate long read (Pacbio HiFi).
-mode S Increase the sensitivity for small variants. (<100bp). (Pacbio CLR, ONT, HiFi).
-mode R Use a fixed value for the variation penalty, more sensitive to translocation events, such as gene conversion. (Pacbio CLR, ONT, HiFi).
-mode asm For full genome alignment.
ヒト1番染色体のpacbioリード(x30) のマッピングとソートに1時間ほどかかった(CPU: 5995WX, 8 threads)。
asmモード(-mode asm) - リファレンスに他のアセンブリ配列をアラインメントする。
vacmap -ref ref.fasta -read read.fasta -mode asm -t 8 -workdir /home/usr/workdir/ --H --fakecigar | samtools sort -@4 > alignments.sorted.bam
samtools index -@4 alignments.sorted.bam
- --fakecigar Use approximate CIAGR in the SA tag.
論文より
- VACmapの実行時間はNGMLRとWinnowmap2より速いが、minimap2より遅い。しかし、VACmapは他のアライナーと比較して、約半分のメモリー使用量しか必要としない。
- VACmapで作成されたアラインメントを用いたSVIM(SVコーラー)は、重複検出において最高の感度を示し、GIAB tier1およびCRMG領域において、それぞれ他のアラインメントアプローチと比較して約70%および80%より多い重複を同定した。
- VACmapのアプローチは、複数の挿入が確かに重複であることを示唆し、重複部分をマッピングする能力が向上したことで、以前に報告されたde novo変異[ref.24]の特徴をより明確にすることができた。
- chr14:23,280,711(GRCh38座標)に位置する変異は、子(HG002: 537 bp)と親(HG003: 214 bpとHG004: 15 bp)で挿入サイズが異なるため、当初はde novo挿入として報告された。VACmapアラインメントにより、このde novo挿入は109 bpのVNTR(Variable Number Tandem Repeat)であり、子供(n=5)と父方の親(n=2)で繰り返し数が異なることが明らかになった。
- さらに、VACmap-SVIMコールセットには、minimap2、Winnowmap2、およびNGMLRアプローチからのコールセットを組み合わせたもののほぼすべて(104/110)が含まれ、さらに100の逆位を発見した(論文図1gのベン図)。
- VACmap-SVIMパイプラインで見逃された逆位を手作業で調べたところ、実際には逆位重複と欠失に挟まれた逆位であることがわかった。VACmapはこの複雑な構造をうまく解決したが、SVIMはその複雑な構造がSVIMのあらかじめ定義されたSV検出ルールに合致しなかったため、検出できなかった。
引用
VACmap: An Accurate Long-Read Aligner for Unraveling Complex Genomic Rearrangements
Hongyu Ding, Fritz J Sedlazeck, Christos Proukakis, Caoimhe Morley, Marco Toffoli, Anthony HV Schapira, Zhirui Liao, Lianrong Pu, Shanfeng Zhu
bioRxiv,Posted September 14, 2024.
関連