（ヒトゲノム向け）ニューラルネットワークを使用したロングリードのSVコーラー NanoVar

　構造変異は、多くのヒト疾患の発症に関与しており、ヒト集団の遺伝的変異の大部分を占めている（ref.3,4）。 50 b5を超えるゲノム変化として定義される構造変異（SV）は、遺伝子調節異常または新規遺伝子融合を引き起こす可能性のある遺伝子病変を形成することにより、細胞生理学に機能的に影響を与え、ガン（ref.6,7）、メンデル障害（ref.8、 9）、および複雑な疾患（ref.10）などの疾患の発症を促進する。 SVは、欠失、重複、挿入、逆位、転座などのさまざまなクラスとして存在する。長年にわたり、疾患に関連するSVは、診断、予後、および患者の治療ガイダンスのバイオマーカーとして示されており、クリニックでのシーケンスベースおよび非シーケンスベースの方法でスクリーニングされた。 SVの臨床的影響が明らかになり続けているため、バイオマーカーを促進するために患者のルーチンSVプロファイリングを行うための正確で迅速かつ安価なワークフローに対する明確なニーズがある。現在、包括的なSV検出のためのシーケンスベースの方法には、ロングリードまたは第3世代シーケンシング（3GS）とショートリードまたは第2世代の2つの主要な標準がある。3GSテクノロジーは多くのユーザーが利用できるようになったが、シーケンスエラー率が高くスループットが低いため、2GSテクノロジーに取って代わっていない。 3GSは現在、主に小さなゲノムの研究またはターゲットシーケンスに限定され、最近の研究では哺乳類の全ゲノムシーケンス（WGS）が報告されているが、古い技術と比較してメガベースあたりのシーケンスコストが高くなっている。 SV発見の領域では、多くのグループが、シーケンスエラー率が高いにもかかわらず、3GSアプローチが2GSよりも高いSV検出感度と分解能を提供したことを報告している。これは主に、短い配列では挿入の検出（50-200 bp）が不十分であり、新規配列の挿入やrepetitiveエレメントを含む大きなゲノム変異を解明できないためである。一方、長いリード長（> 1 kb）はマッピングのあいまいさを減らし、リピート配列と複雑なSVを解決し、ショートリードよりもはるかに広範囲のSVを発見する。 SVの検出機能は向上しているが、3GSのメガベースあたりの低スループットと高いシーケンスコストにより、患者の日常的なSV探査で使用する可能性が妨げられている。
これらの問題を克服するために、患者の正確なSV特性評価のために、低デプスのオックスフォードナノポアテクノロジー（ONT）WGSデータを利用する新しいSVコールツールであるNanoVarを開発した。 NanoVarは、すべてのSVクラスに対して、信頼性の高いSV検出およびSV接合性推定のために、ニューラルネットワークベースのアルゴリズムを採用している。フローセルのケミストリの性質、ライブラリー調製に応じて、1から5回のONT MinIONシーケンス実行で達成できる、合計塩基数が4Xまたは12ギガベース（Gb）の最小シーケンスデプスで浅いロングリードのWGSデータを処理するように最適化されている。本論文では、NanoVarのSV検出精度を評価し、シミュレーションデータセットを使用して他のツールと比較した。

Githubにシミュレーションデータのダウンロードリンクあり。

インストール

ubuntu18.04LTSのpython3.7環境でテストした。

依存

Linux (x86_64 architecture, tested in Ubuntu 14.04, 16.04, 18.04)

bedtools >=2.26.0
makeblastdb and windowmasker
hs-blastn

Github

#bioconda (link)
conda create -n nanovar -c bioconda -y nanovar python=3.7
source activate nanovar

> nanovar -h

$ nanovar -h

usage: nanovar [-h] [-f FILTER_BED] [-l MINLEN] [-p SPLITPCT] [-a MINALIGN]

[-b BUFFER] [-s SCORE] [-v] [-q] [-t [1-54]] [--force]

[--mdb MDB] [--wmk WMK] [--hsb HSB]

[long_reads] [reference_genome] [working_directory]

NanoVar is a neural-network-based structural variant (SV) caller that utilizes

low-depth long-read sequencing data.

positional arguments:

[long_reads] Path to long reads. Formats: fasta/fa/fa.gzip/fa.gz

fastq/fq/fq.gzip/fq.gz

[reference_genome] Path to reference genome in FASTA. Genome indexes

created will overwrite indexes created by other

aligners (e.g. bwa)

[working_directory] Path to working directory. Directory will be created

if it does not exist

optional arguments:

-h, --help show this help message and exit

-f FILTER_BED, --filter_bed FILTER_BED

BED file with genomic regions to be excluded. (e.g.

telomeres and centromeres). Either specify name of in-

built reference genome filter (i.e. hg38, hg19, mm10)

or provide FULL path to own BED file. [None]

-l MINLEN, --minlen MINLEN

minimum length of SV to be detected. [25]

-p SPLITPCT, --splitpct SPLITPCT

minimum percentage of unmapped bases within a long

read to be considered as a split-read. 0.05<=p<=0.50

[0.05]

-a MINALIGN, --minalign MINALIGN

minimum alignment length for single alignment reads.

[200]

-b BUFFER, --buffer BUFFER

nucleotide length buffer for SV breakend clustering.

[50]

-s SCORE, --score SCORE

score threshold for defining PASS/FAIL SVs in VCF.

Default score 2.6 was derived from simulated analysis.

[2.6]

-v, --version show version and exit

-q, --quiet hide verbose

-t [1-54], --threads [1-54]

number of available threads for use, max=54 [2]

--force run full pipeline, do not skip any redundant steps

(e.g. index generation)

--mdb MDB Specify path to 'makeblastdb' executable

--wmk WMK Specify path to 'windowmasker' executable

--hsb HSB Specify path to 'hs-blastn' executable

実行方法

ONTのfastqとレファレンス、オプションで除外する領域情報を持つbedファイルを指定する。

nanovar -t 24 -f hg38 long_reads.fq reference.fa working_dir

<long_reads> Path to long reads. Formats: fasta/fa/fa.gzip/fa.gz fastq/fq/fq.gzip/fq.gz
<reference_genome> Path to reference genome in FASTA. Genome indexes created will overwrite indexes created by other aligners (e.g. bwa)
<working_directory> Path to working directory. Directory will be created if it does not exist
-f BED file with genomic regions to be excluded. (e.g. telomeres and centromeres). Either specify name of in- built reference genome filter (i.e. hg38, hg19, mm10) or provide FULL path to own BED file. [None]

引用

NanoVar: Accurate Characterization of Patients’ Genomic Structural Variants Using Low-Depth Nanopore Sequencing
Cheng Yong Tham, Roberto Tirado-Magallanes, Yufen Goh, Melissa J. Fullwood, Bryan T.H. Koh, Wilson Wang, Chin Hin Ng, Wee Joo Chng, Alexandre Thiery, Daniel G. Tenen, Touati Benoukraf

bioRxiv preprint first posted online Jun. 17, 2019