macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

フェージングの品質を評価、改善する phaseME

 

 同じDNA分子上でどの突然変異が発生しているかを検出することは、その結果を予測するために不可欠である。これは、ゲノム変異のphasingによって達成することができる。それにもかかわらず、最先端のハプロタイプphasingは、現在のところ、再構成されたハプロタイプの精度と品質を評価することが困難なブラックボックスとなっている。
 ここでは、リンケージデータに基づいてサンプルのphasing結果を理解し、改善するための汎用性の高い手法であるPhaseMEを紹介する。ロングリードと高品質のコンセンサスリードの両方を含むPacific Biosciences、そしてOxford Nanopore Technologies、10x Genomics、Illuminaのシーケンシング技術についてPhaseMEの性能と重要性を比較する。10x GenomicsとOxford Nanoporeでは、高いN50とphaseブロックの完全性を維持しつつ、Phasingを大幅に改善できることがわかった。PhaseMEは、レポートとサマリープロットを生成して、フェージング性能と正確性についての洞察を提供する。シーケンシング技術のそれぞれに固有のphasingの問題が観察され、品質評価の必要性が強調された。PhaseMEは、5つの技術すべてにおいて、ハミングエラー率(ref.29)を平均で22.4%も大幅に減少させることができた。さらに、ロングスイッチエラー (inaccurately joined haplotypes)の低減においても大きな改善が得られている。特に高品質のコンセンサスリードについては、54.6%の改善が見られ、その見返りとして、phase block N50の長さが5%だけ減少した。
 PhaseMEは、リンケージ情報を利用してphasingの品質と精度を評価し、phasingの品質を向上させるためのユニバーサルな手法である。パッケージは https://github.com/smajidian/phaseme で自由に利用できる。

 

 

インストール 

ubuntu18.04のpython3.7環境でテストした。

Github

git clone https://github.com/smajidian/phaseme.git
cd phaseme/

python --version

# python --version

Python 3.7.3

(base) root@d2fd96e04b90:/data# python phaseme.py -h

 

Please provide enough argumnets 

 

 

 

   python phaseme.py qc my.vcf out 

   python phaseme.py improver my.vcf out

   python phaseme.py improver my.vcf out path_shapeit path_1000g

If you choose individual, please make sure that the followings work well in bash:  ls path_1000g/1000GP_Phase3_chr1.hap.gz; ls path_shapeit/shapeit; ./path_shapeit/shapeit;

 

テストラン

https://github.com/smajidian/phaseme/tree/master/example

 

Precomputed Mode

1、QC

WhatsHapなどでphase化されたvcfを出力し、そのvcfを指定する。

python phaseme.py quality example/my.vcf example/out_pre 

 出力

f:id:kazumaxneo:20200805235820p:plain

 

2、Improve

python phaseme.py improver example/my.vcf example/out_pre_imp 

 出力

f:id:kazumaxneo:20200806000006p:plain

QC.csv

f:id:kazumaxneo:20200806011505p:plain

 

引用

PhaseME: Automatic rapid assessment of phasing quality and phasing improvement
Sina Majidian, Fritz J Sedlazeck
GigaScience, Volume 9, Issue 7, July 2020

 

関連