ロングリードデータから正確に構造変異を検出する SVsearcher

構造変異（SV）は、50bpを超えるサイズのゲノム再編成（欠失、挿入、反転など）を指す。これらは遺伝性疾患や進化メカニズムにおいて重要な役割を果たす。ロングリードシーケンシング技術（PacBioロングリードシーケンシングやOxford Nanopore（ONT）ロングリードシーケンシングなど）の進歩により、SVを正確に同定できるようになった。しかしONTロングリードでは、既存のロングリードSV検出ツールが反復領域や多型性SV領域において多数の真陽性SVを見逃し、偽陽性SVを大量に検出することが確認されている。これらの誤りはONTリードの高いエラー率に起因する不正確なアラインメントが原因である。そこで本著者らはこれらの課題を解決する新規手法SVsearcherを提案する。SVsearcherと他の検出器を3つの実データセットで実行した結果、高カバレッジ（50×）データセットではF1スコアが約10%、低カバレッジ（10×）データセットでは25%以上向上することが確認された。さらに重要な点として、SVsearcherは81.7%～91.8%の多対立遺伝子SVを同定できるのに対し、既存手法では13.2%（Sniffles）～54.0%（nanoSV）しか同定できない。SVsearcherはhttps://github.com/kensung-lab/SVsearcherで利用できる。

インストール

Python スクリプトでビルドは不要。以下のPythonの依存関係のみ利用できるようにしておく必要がある。

依存

1. python3
2. pysam
3. cigar
4. numpy
5. pyfaidx
6. copy
7. time
8. argparse

本体　Github

mamba create -n SVsearcher python=3.10 -y
conda activate SVsearcher
mamba install -c bioconda pysam pyfaidx -y
pip install numpy cigar

#本体
git clone https://github.com/kensung-lab/SVsearcher.git
cd SVsearcher/

> python SVsearcher.py -h

$ python SVsearcher.py -h

usage: SVsearcher.py [-h] hg19_bam fasta

positional arguments:

hg19_bam bam file

fasta fasta file

options:

-h, --help show this help message and exit

> python SVsearcher.py hg19_bam -h

usage: SVsearcher.py [-h] hg19_bam fasta

positional arguments:

hg19_bam bam file

fasta fasta file

options:

-h, --help show this help message and exit

> python SVsearcher.py fasta -h

usage: SVsearcher.py [-h] hg19_bam fasta

positional arguments:

hg19_bam bam file

fasta fasta file

options:

-h, --help show this help message and exit

実行方法

ランするにはsortされたbamファイルが必要。bamのindexも存在している必要がある。

python SVsearcher.py sorted.bam Homo_sapiens.GRCh38.dna.primary_assembly.fa

小さめのデモデータを作ってテストした（HG38, bamファイルサイズ1.2GB）。5995WX CPUのマシンだと30分ほどで計算は終了した。

出力

標準的な VCF形式だが、SVsearcher独自のフィールドも含まれている（レポジトリより）：

１、ALT が <INS> や <DEL> のようなタグ形式

２、INFO に SVTYPE, SVLEN, END, SEQ などが含まれる

論文より

既存のロングリードSV検出ツールは、高度に反復的な領域において真のSVの一部を見逃す一方で、多くの偽陽性SVを導入する。この不正確さは、ロングリードの不適切なアラインメントによって引き起こされることが観察された。この問題は特にONTデータにおいて深刻である（論文執筆当時のONTリードのエラー率は約3%[29]）。
第二の問題は、既存のSV検出ツールがマルチアレリックSVを正しく検出できない点である。ヒトゲノムが二倍体であるため、母系・父系染色体双方の同一遺伝子座で異なるSVが生じる可能性がある。既存ツールは通常、両方のSVを検出できず、いずれのSVも検出しないか、一方のみを検出する結果となり、下流解析に影響を及ぼす。既存のロングリードSV検出ツールはこうした技術的限界を考慮していないため、多くの誤ったSVが検出される。
このような観察結果に基づき、欠失、挿入（重複を含む）、反転を正確に検出できる汎用的なSV検出器SVsearcherを提案する。SVsearcherが他の手法よりも実データセットで優れた性能を発揮することを実証する。ベンチマーク評価に基づく現行最良手法cuteSVとの比較では、高カバレッジデータセット（50x）ではF1スコアが10%向上、低カバレッジデータセット（10x）では25%以上向上した。さらに重要な点として、SVsearcherはより多くの多対立遺伝子SV（multi-allelic SVs）を検出できる。