macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(ヒトゲノム向け)ニューラルネットワークを使用したロングリードのSVコーラー NanoVar

 

 構造変異は、多くのヒト疾患の発症に関与しており、ヒト集団の遺伝的変異の大部分を占めている(ref.3,4)。 50 b5を超えるゲノム変化として定義される構造変異(SV)は、遺伝子調節異常または新規遺伝子融合を引き起こす可能性のある遺伝子病変を形成することにより、細胞生理学に機能的に影響を与え、ガン(ref.6,7)、メンデル障害(ref.8、 9)、および複雑な疾患(ref.10)などの疾患の発症を促進する。 SVは、欠失、重複、挿入、逆位、転座などのさまざまなクラスとして存在する。長年にわたり、疾患に関連するSVは、診断、予後、および患者の治療ガイダンスのバイオマーカーとして示されており、クリニックでのシーケンスベースおよび非シーケンスベースの方法でスクリーニングされた。 SVの臨床的影響が明らかになり続けているため、バイオマーカーを促進するために患者のルーチンSVプロファイリングを行うための正確で迅速かつ安価なワークフローに対する明確なニーズがある。現在、包括的なSV検出のためのシーケンスベースの方法には、ロングリードまたは第3世代シーケンシング(3GS)とショートリードまたは第2世代の2つの主要な標準がある。3GSテクノロジーは多くのユーザーが利用できるようになったが、シーケンスエラー率が高くスループットが低いため、2GSテクノロジーに取って代わっていない。 3GSは現在、主に小さなゲノムの研究またはターゲットシーケンスに限定され、最近の研究では哺乳類の全ゲノムシーケンス(WGS)が報告されているが、古い技術と比較してメガベースあたりのシーケンスコストが高くなっている。 SV発見の領域では、多くのグループが、シーケンスエラー率が高いにもかかわらず、3GSアプローチが2GSよりも高いSV検出感度と分解能を提供したことを報告している。これは主に、短い配列では挿入の検出(50-200 bp)が不十分であり、新規配列の挿入やrepetitiveエレメントを含む大きなゲノム変異を解明できないためである。一方、長いリード長(> 1 kb)はマッピングのあいまいさを減らし、リピート配列と複雑なSVを解決し、ショートリードよりもはるかに広範囲のSVを発見する。 SVの検出機能は向上しているが、3GSのメガベースあたりの低スループットと高いシーケンスコストにより、患者の日常的なSV探査で使用する可能性が妨げられている。
これらの問題を克服するために、患者の正確なSV特性評価のために、低デプスのオックスフォードナノポアテクノロジー(ONT)WGSデータを利用する新しいSVコールツールであるNanoVarを開発した。 NanoVarは、すべてのSVクラスに対して、信頼性の高いSV検出およびSV接合性推定のために、ニューラルネットワークベースのアルゴリズムを採用している。フローセルのケミストリの性質、ライブラリー調製に応じて、1から5回のONT MinIONシーケンス実行で達成できる、合計塩基数が4Xまたは12ギガベース(Gb)の最小シーケンスデプスで浅いロングリードのWGSデータを処理するように最適化されている。本論文では、NanoVarのSV検出精度を評価し、シミュレーションデータセットを使用して他のツールと比較した。

 

Githubにシミュレーションデータのダウンロードリンクあり。

 

インストール

ubuntu18.04LTSのpython3.7環境でテストした。

依存

Linux (x86_64 architecture, tested in Ubuntu 14.04, 16.04, 18.04)

  • bedtools >=2.26.0
  • makeblastdb and windowmasker
  • hs-blastn

Github 

#bioconda (link)
conda create -n nanovar -c bioconda -y nanovar python=3.7
source activate nanovar

nanovar -h

$ nanovar -h

usage: nanovar [-h] [-f FILTER_BED] [-l MINLEN] [-p SPLITPCT] [-a MINALIGN]

               [-b BUFFER] [-s SCORE] [-v] [-q] [-t [1-54]] [--force]

               [--mdb MDB] [--wmk WMK] [--hsb HSB]

               [long_reads] [reference_genome] [working_directory]

 

NanoVar is a neural-network-based structural variant (SV) caller that utilizes 

low-depth long-read sequencing data.

 

positional arguments:

  [long_reads]          Path to long reads. Formats: fasta/fa/fa.gzip/fa.gz

                        fastq/fq/fq.gzip/fq.gz

  [reference_genome]    Path to reference genome in FASTA. Genome indexes

                        created will overwrite indexes created by other

                        aligners (e.g. bwa)

  [working_directory]   Path to working directory. Directory will be created

                        if it does not exist

 

optional arguments:

  -h, --help            show this help message and exit

  -f FILTER_BED, --filter_bed FILTER_BED

                        BED file with genomic regions to be excluded. (e.g.

                        telomeres and centromeres). Either specify name of in-

                        built reference genome filter (i.e. hg38, hg19, mm10)

                        or provide FULL path to own BED file. [None]

  -l MINLEN, --minlen MINLEN

                        minimum length of SV to be detected. [25]

  -p SPLITPCT, --splitpct SPLITPCT

                        minimum percentage of unmapped bases within a long

                        read to be considered as a split-read. 0.05<=p<=0.50

                        [0.05]

  -a MINALIGN, --minalign MINALIGN

                        minimum alignment length for single alignment reads.

                        [200]

  -b BUFFER, --buffer BUFFER

                        nucleotide length buffer for SV breakend clustering.

                        [50]

  -s SCORE, --score SCORE

                        score threshold for defining PASS/FAIL SVs in VCF.

                        Default score 2.6 was derived from simulated analysis.

                        [2.6]

  -v, --version         show version and exit

  -q, --quiet           hide verbose

  -t [1-54], --threads [1-54]

                        number of available threads for use, max=54 [2]

  --force               run full pipeline, do not skip any redundant steps

                        (e.g. index generation)

  --mdb MDB             Specify path to 'makeblastdb' executable

  --wmk WMK             Specify path to 'windowmasker' executable

  --hsb HSB             Specify path to 'hs-blastn' executable

 

 

実行方法

ONTのfastqとレファレンス、オプションで除外する領域情報を持つbedファイルを指定する。

nanovar -t 24 -f hg38 long_reads.fq reference.fa working_dir

 

 

  • <long_reads>   Path to long reads. Formats: fasta/fa/fa.gzip/fa.gz fastq/fq/fq.gzip/fq.gz
  • <reference_genome>    Path to reference genome in FASTA. Genome indexes created will overwrite indexes created by other aligners (e.g. bwa)
  • <working_directory>   Path to working directory. Directory will be created if it does not exist
  • -f   BED file with genomic regions to be excluded. (e.g. telomeres and centromeres). Either specify name of in- built reference genome filter (i.e. hg38, hg19, mm10) or provide FULL path to own BED file. [None]

 

引用

NanoVar: Accurate Characterization of Patients’ Genomic Structural Variants Using Low-Depth Nanopore Sequencing
Cheng Yong Tham, Roberto Tirado-Magallanes, Yufen Goh, Melissa J. Fullwood, Bryan T.H. Koh, Wilson Wang, Chin Hin Ng, Wee Joo Chng, Alexandre Thiery, Daniel G. Tenen, Touati Benoukraf

bioRxiv preprint first posted online Jun. 17, 2019

 

関連