macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

パンゲノムに基づいて構造変異をコールする svarp

 

 現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異(SV)の検出が制限される。したがって、多くのSV対立遺伝子は未解決のままである。グラフベースのリファレンスゲノムへの移行を目指した最近の努力の結果、最初のヒトパンゲノムのドラフトが作成されたが、パンゲノムのリファレンスゲノムに対してSVをコールするツールは現在のところ不足している。SVarpは、パンゲノムのリファレンスゲノム上にハプロタイプで分離されたSVを発見することを目的としたアルゴリズムである。SVarpは、SVブレークポイントのVCFファイルではなく、svtigsと呼ばれるSV対立遺伝子のローカルアセンブリを出力する。svtigsの精度を評価するために、シミュレーションと実際のヒトゲノムを用いた。シミュレーションでは、真のコールセットとブレークポイントを正確に比較することができた。その結果、1,000bp以上の欠失、挿入、重複で約96%の再現性が確認され、SVarpはグラフにまだ表現されていないゲノム構造変異を確実に検出できることが示された。一方、カバレッジ20倍のONTシーケンスデータに対するSVarpの出力を、同じサンプルの独立したゲノムアセンブリと比較したところ、svtig予測の約82%がアセンブリによって検証され、85%以上の配列が一致した。

 

依存

SVarp is developed and tested using Linux Ubuntu operating system

  • wtdbg2
  • zlib (sudo apt-get install zlib1g-d)
  • GraphAligner
  • Samtools
  • Minimap2
    git clone https://github.com/lh3/minimap2 && cd minimap2 && make
    HTSlib and WFA2-lib
    You can either use make libs or follow the steps below

バインディングのためにSVarp/下にwfaとhtslibをビルドする必要がある

#1 GraphAligner
mamba create -n svarp -y
conda activate svarp
mamba install -c bioconda graphaligner minimap2 samtools -y

#1 本体のclone
git clone https://github.com/asylvz/SVarp.git
cd SVarp/

#2 WFA2
wget https://github.com/smarco/WFA2-lib/archive/refs/tags/v2.3.4.tar.gz?
tar -xzf v2.3.4.tar.gz
mv WFA2-lib-2.3.4 wfa
cd wfa/
make clean all
cd ../

#3 htslib
wget https://github.com/samtools/htslib/releases/download/1.17/htslib-1.17.tar.bz2
tar -xvf htslib-1.17.tar.bz2
mv htslib-1.17 htslib
cd htslib/
autoconf -i
./configure --disable-lzma --disable-bz2 --disable-libcurl
make -j 10


#4 本体のビルド
cd ../
make

> build/svarp --help

 

SVarp: pangenome-based structural variation discovery

 Version 1.0, Last update: February 12, 2024

 

 

Required arguments

 --gaf (-a)                  : GAF alignment file

 --graph (-g)                : GFA pangenome file

 --fasta (-f)                : Fasta sequence file

 

 

Optional arguments

 --sample (-i)               : Sample name.

 --out (-o)                  : Output folder.

 --debug                     : Output multiple log files for debugging purpose.

 --skip-untagged             : Output only phased variants (~30% faster).

 --dist_threshold (-d)       : Distance threshold to merge SV breakpoints (default=100)

 --out (-o)                  : Output folder path

 --phase (-p)                : WhatsHap haplotag file in .tsv (https://whatshap.readthedocs.io/en/latest/guide.html#whatshap-haplotag)

 --reads(-r)                 : Bgzipped FASTA file of reads for extensive mode (needed for WFA realignment)

 --sample (-i)               : Sample (Individual) name

 --support (-s)              : Minimum support for a cluster to be assembled (default=5 for diploid samples)

 --threads(-t)               : Number of threads for assembly and realignment (default:32)

 --help                      : Print this help menu

 

 

Command to run

 build/svarp -a xxx.gaf -g xxx.gfa --fasta xxx.fasta.gz --phase read_tags.tsv -i SAMPLE_NAME -o OUTPUT_FOLDER

 

 

build/svarp -a xxx.gaf -g xxx.gfa --fasta xxx.fasta.gz --phase read_tags.tsv -i SAMPLE_NAME -o OUTPUT_FOLDER

 

 

実行方法

PangenomeのリファレンスはGFA形式である必要がある。またリードのFASTAはbgzipping(bgzip圧縮)されている必要がある。GAFアラインメントは当然入力と同じGFAでアラインメントされている必要がある。

svarp -a input.gaf -g ref.gfa --fasta reads.fasta.gz --phase read_tags.tsv -i SAMPLE_NAME -o OUTPUT_FOLDER
  • --gaf       GAF alignment file
  • --graph  GFA pangenome file
  • --fasta    Fasta sequence file

 

作成中

 

引用

SVarp: pangenome-based structural variant discovery
Arda Söylev, Jana Ebler,  Samarendra Pani,  Tobias Rausch,  Jan O. Korbel, Tobias Marschall

bioRxiv, Posted February 18, 2024.