macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードを使ったSNVとSVのフェーシングを行う LongPhase

 

 ロングリード・フェーシングは、二倍体ゲノムの再構築、バリアント・コーリングの改善、メタゲノミクスにおける微生物株の解決などに用いられてきた。しかし、既存の手法では、大きな構造変化(Structural Variation: SV)によって位相差ブロックが破壊されてしまい、集団規模のフェーシングを行うには効率が満足できない。本論文では、超高速アルゴリズムLongPhaseを紹介する。このアルゴリズムは、ヒトゲノムの一塩基多型(SNP)とSVを同時に、最先端のWhatsHapやMarginの10倍の速さである約10-20分でフェーシングすることができる。特にLongPhaseは、ロングリード(N50=26Mbp)のみで、ほぼ染色体レベルのはるかに大きなフェーズブロックを生成する。LongPhaseとNanoporeの組み合わせは、追加のトリオ、染色体の構造、シングルセルのストランド・セクデータを必要とせずに、染色体レベルのフェージングを提供するコスト効率の高いアプローチであることを実証している。

 

インストール

htslibライブラリをビルドしてからGithubの手順に従ってビルドした。

依存

  • LongPhase relies on htslib for parsing BAMs. We package the htslib folder into our project. 

Github

リリース

git clone https://github.com/twolinin/LongPhase.git
cd LongPhase
autoreconf -i
./configure
make -j 4

> ./longPhase phase

phase: missing arguments. --ont or --pb

phase: missing SNP file.

phase: missing bam file.

 

Usage:  phase [OPTION] ... READSFILE

      --help                     display this help and exit.

      --dot                      each contig/chromosome will generate dot file. 

      --ont, --pb                ont: Oxford Nanopore genomic reads.

                                 pb: PacBio HiFi/CCS genomic reads.

      --sv-file=NAME             input SV vcf file.

      -s, --snp-file=NAME        input SNP vcf file.

      -b, --bam-file=NAME        input bam file.

      -o, --out-prefix=NAME      prefix of phasing result.

      -r, --reference=NAME       reference fasta.

      -t, --threads=Num          number of thread. 

      -d, --distance=Num         phasing two variant if distance less than threshold. default:300000

      -c, --crossBlock=Num       each block tries to connect with next N blocks. default:1

 

 

実行方法

ランにはbamとbam.bai、fastafasta.fai、そしてVCFファイルが必要。

#ONT
LongPhase phase \
-s SNP.vcf -b alignment.bam -r reference.fasta -t 8 \
-o output_prefix --ont

#PacBio
LongPhase phase \
-s SNP.vcf -b alignment.bam -r reference.fasta -t 8 \
-o output_prefix --pb

 

リリースからテストデータ(210GBほどある)が公開されている。

#SNV
LongPhase phase -s SNP_PEPPER.vcf -b HG002_ULR_60x.bam -r GRCh37.fa \
-t 20 -o output_prefix --ont

#SV and SNV
LongPhase phase -s SV_sniffles.vcf -b HG002_ULR_60x.bam -r GRCh37.fa \
-t 20 -o output_prefix --ont

出力ファイル

SNPとSVのco-phasingを行った場合、2つのVCF(SNP用とSV用)が出力される。GTフィールドにはフェーズされたSVが、PSフィールドにはブロックIDが格納される。Githubに例があるので興味がある方は確認して下さい。

 

引用

LongPhase: an ultra-fast chromosome-scale phasing algorithm for small and large variants

Jyun-Hong Lin, Liang-Chi Chen, Shu-Qi Yu, Yao-Ting Huang

bioRxiv, Posted September 11, 2021

 

関連