ロングリード・フェーシングは、二倍体ゲノムの再構築、バリアント・コーリングの改善、メタゲノミクスにおける微生物株の解決などに用いられてきた。しかし、既存の手法では、大きな構造変化(Structural Variation: SV)によって位相差ブロックが破壊されてしまい、集団規模のフェーシングを行うには効率が満足できない。本論文では、超高速アルゴリズムLongPhaseを紹介する。このアルゴリズムは、ヒトゲノムの一塩基多型(SNP)とSVを同時に、最先端のWhatsHapやMarginの10倍の速さである約10-20分でフェーシングすることができる。特にLongPhaseは、ロングリード(N50=26Mbp)のみで、ほぼ染色体レベルのはるかに大きなフェーズブロックを生成する。LongPhaseとNanoporeの組み合わせは、追加のトリオ、染色体の構造、シングルセルのストランド・セクデータを必要とせずに、染色体レベルのフェージングを提供するコスト効率の高いアプローチであることを実証している。
インストール
htslibライブラリをビルドしてからGithubの手順に従ってビルドした。
依存
- LongPhase relies on htslib for parsing BAMs. We package the htslib folder into our project.
リリース
git clone https://github.com/twolinin/LongPhase.git
cd LongPhase
autoreconf -i
./configure
make -j 4
> ./longPhase phase
phase: missing arguments. --ont or --pb
phase: missing SNP file.
phase: missing bam file.
Usage: phase [OPTION] ... READSFILE
--help display this help and exit.
--dot each contig/chromosome will generate dot file.
--ont, --pb ont: Oxford Nanopore genomic reads.
pb: PacBio HiFi/CCS genomic reads.
--sv-file=NAME input SV vcf file.
-s, --snp-file=NAME input SNP vcf file.
-b, --bam-file=NAME input bam file.
-o, --out-prefix=NAME prefix of phasing result.
-r, --reference=NAME reference fasta.
-t, --threads=Num number of thread.
-d, --distance=Num phasing two variant if distance less than threshold. default:300000
-c, --crossBlock=Num each block tries to connect with next N blocks. default:1
実行方法
ランにはbamとbam.bai、fastaとfasta.fai、そしてVCFファイルが必要。
#ONT
LongPhase phase \
-s SNP.vcf -b alignment.bam -r reference.fasta -t 8 \
-o output_prefix --ont
#PacBio
LongPhase phase \
-s SNP.vcf -b alignment.bam -r reference.fasta -t 8 \
-o output_prefix --pb
リリースからテストデータ(210GBほどある)が公開されている。
#SNV
LongPhase phase -s SNP_PEPPER.vcf -b HG002_ULR_60x.bam -r GRCh37.fa \
-t 20 -o output_prefix --ont
#SV and SNV
LongPhase phase -s SV_sniffles.vcf -b HG002_ULR_60x.bam -r GRCh37.fa \
-t 20 -o output_prefix --ont
出力ファイル
SNPとSVのco-phasingを行った場合、2つのVCF(SNP用とSV用)が出力される。GTフィールドにはフェーズされたSVが、PSフィールドにはブロックIDが格納される。Githubに例があるので興味がある方は確認して下さい。
引用
LongPhase: an ultra-fast chromosome-scale phasing algorithm for small and large variants
Jyun-Hong Lin, Liang-Chi Chen, Shu-Qi Yu, Yao-Ting Huang
bioRxiv, Posted September 11, 2021
2022/2/2
LongPhase: an ultra-fast chromosome-scale phasing algorithm for small and large variants Get access Arrow
Jyun-Hong Lin, Liang-Chi Chen, Shu-Chi Yu, Yao-Ting Huang
Bioinformatics, Published: 01 February 2022
関連