同じDNA分子上でどの突然変異が発生しているかを検出することは、その結果を予測するために不可欠である。これは、ゲノム変異のphasingによって達成することができる。それにもかかわらず、最先端のハプロタイプphasingは、現在のところ、再構成されたハプロタイプの精度と品質を評価することが困難なブラックボックスとなっている。
ここでは、リンケージデータに基づいてサンプルのphasing結果を理解し、改善するための汎用性の高い手法であるPhaseMEを紹介する。ロングリードと高品質のコンセンサスリードの両方を含むPacific Biosciences、そしてOxford Nanopore Technologies、10x Genomics、Illuminaのシーケンシング技術についてPhaseMEの性能と重要性を比較する。10x GenomicsとOxford Nanoporeでは、高いN50とphaseブロックの完全性を維持しつつ、Phasingを大幅に改善できることがわかった。PhaseMEは、レポートとサマリープロットを生成して、フェージング性能と正確性についての洞察を提供する。シーケンシング技術のそれぞれに固有のphasingの問題が観察され、品質評価の必要性が強調された。PhaseMEは、5つの技術すべてにおいて、ハミングエラー率(ref.29)を平均で22.4%も大幅に減少させることができた。さらに、ロングスイッチエラー (inaccurately joined haplotypes)の低減においても大きな改善が得られている。特に高品質のコンセンサスリードについては、54.6%の改善が見られ、その見返りとして、phase block N50の長さが5%だけ減少した。
PhaseMEは、リンケージ情報を利用してphasingの品質と精度を評価し、phasingの品質を向上させるためのユニバーサルな手法である。パッケージは https://github.com/smajidian/phaseme で自由に利用できる。
Great collaboration with @Siiinaaam: PhaseME: utilization of linkage information to assess and improve the accuracy of phasing using @PacBio / @nanopore / @illumina. Hamming error rate reduced by on average 22.4%. https://t.co/M7S8UnHPzU@GigaScience @BCM_HGSC #Bioinformatics pic.twitter.com/omUMFcymbQ
— Fritz Sedlazeck (@sedlazeck) 2020年7月24日
インストール
ubuntu18.04のpython3.7環境でテストした。
git clone https://github.com/smajidian/phaseme.git
cd phaseme/
> python --version
# python --version
Python 3.7.3
(base) root@d2fd96e04b90:/data# python phaseme.py -h
Please provide enough argumnets
python phaseme.py qc my.vcf out
python phaseme.py improver my.vcf out
python phaseme.py improver my.vcf out path_shapeit path_1000g
If you choose individual, please make sure that the followings work well in bash: ls path_1000g/1000GP_Phase3_chr1.hap.gz; ls path_shapeit/shapeit; ./path_shapeit/shapeit;
テストラン
https://github.com/smajidian/phaseme/tree/master/example
Precomputed Mode
1、QC
WhatsHapなどでphase化されたvcfを出力し、そのvcfを指定する。
python phaseme.py quality example/my.vcf example/out_pre
出力
2、Improve
python phaseme.py improver example/my.vcf example/out_pre_imp
出力
QC.csv
引用
PhaseME: Automatic rapid assessment of phasing quality and phasing improvement
Sina Majidian, Fritz J Sedlazeck
GigaScience, Volume 9, Issue 7, July 2020
関連