macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

リファレンスゲノムとハプロイドゲノムアセンブリを比較してSVをコールする hapdiff

 

 

レポジトリより

hapdiffは2倍体アセンブリのためのシンプルなSVコールパッケージである。svim-asmを改良したものを使用している。このパッケージは、アライナーのバージョンやパラメータに依存する可能性があるため、実行間の再現性を確保するために、独自のバージョンminimap2を含んでいる。

 

インストール

Dockerでの実行が推奨されているため、提供されているdocker imageを使ってテストした(レポジトリで使い方は説明されています)。

Github

#dockerhub(link)
cd directory_with_input
DD_DIR=`pwd`
docker pull mkolmogo/hapdiff:0.7

#from source
git clone https://github.com/KolmogorovLab/hapdiff
cd hapdiff
git submodule update --init
make
pip install -r requirements.txt

 

 

実行方法

リファレンスゲノムとハプロタイプのペア(即ち両親それぞれから由来するハプロイドゲノムアセンブリ)を指定する。VCF形式でフォーマットでSVがコールされる。

hapdiff.py --reference ref.fasta --pat hap_1.fasta --mat hap_2.fasta --out-dir out_path -t 20

#docker
cd directory_with_input
DD_DIR=`pwd`
docker run -v $DD_DIR:$DD_DIR -u `id -u`:`id -g` mkolmogo/hapdiff:0.7 \
  hapdiff.py --reference $DD_DIR/ref.fasta --pat $DD_DIR/hap_1.fasta --mat $DD_DIR/hap_2.fasta --out-dir $DD_DIR/hapdiff -t 20

 

出力例(人口的に欠失を発生させた小さな配列を使用)

VCF4.2形式でSVは呼び出される。

 

引用

https://github.com/KolmogorovLab/hapdiff

 

Scalable Nanopore sequencing of human genomes provides a comprehensive view of haplotype-resolved variation and methylation
Mikhail Kolmogorov, Kimberley J Billingsley, Mira Mastoras, Melissa Meredith, Jean Monlong, Ryan Lorig-Roach, Mobin Asri, Pilar Alvarez Jerez, Laksh Malik, Ramita Dewan, Xylena Reed, Rylee M Genner, Kensuke Daida, Sairam Behera, Kishwar Shafin, Trevor Pesout, Jeshuwin Prabakaran, Paolo Carnevali; North American Brain Expression Consortium (NABEC); Jianzhi Yang, Arang Rhie, Sonja W Scholz, Bryan J Traynor, Karen H Miga, Miten Jain, Winston Timp, Adam M Phillippy, Mark Chaisson, Fritz J Sedlazeck, Cornelis Blauwendraat, Benedict Paten

Preprint, 2023 Jan 15;2023.01.12.523790

 

関連