macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ハプロタイプゲノム配列を組み立てるHaploMaker

 

 二倍体生物において、全ゲノムハプロタイプの構築は、ヘテロ接合型一塩基多型の対立遺伝子を正確に同定し、正しい相同染色体に割り当てることに依存する。このように対立遺伝子を適切に配置することで、ハプロタイプと呼ばれる染色体上の一塩基多型の組み合わせが、重要な表現形質との関連の可能性を決定するなど、下流の遺伝子解析アプローチに利用できるようになる。ゲノム配列データから全ゲノムハプロタイプを構築するために、多くの統計アルゴリズムや補完的な計算ソフトウェアツールが開発されてきた。しかし、多くのアルゴリズムは、長いハプロタイプブロックを相補的に構築する能力に欠け、同時に競争力のある精度を達成することができない。
 本研究では、2倍体ゲノム配列からペアエンドショートリードとパシフィックバイオサイエンス社製ロングリードを用いて、長いハプロタイプを正確かつ効率的に位相決定できる、新規のリファレンスベースハプロタイプ構築アルゴリズムHaploMakerを紹介する。ハプロタイプの位相合わせを効率的に行うため、リードの証拠に重み付けされたエッジを持つ有向非巡回グラフとして問題を捉え、効率的なパストラバーサルと最小化技術を使用している。Platinum Genomeプロジェクトで公開されたヒトのハプロタイプデータを用いて、HaploMakerアルゴリズムと他の3つの一般的なリファレンスベースのハプロタイプアセンブリーツールを比較した。HaploMakerは、ショートリード配列の場合、すべてのハプロタイプ長において競合的に低いスイッチエラー率を維持し、より長いゲノム領域の位相合わせに優れていた。Pacific Biosciences社製のロングリードでは、HaploMakerの位相合わせ精度はすべてのブロック長で競争力を維持し、競合アルゴリズムよりも大幅に長いブロック長を生成した。
 HaploMakerは、2倍体ゲノム配列に対して、より長いハプロタイプの位相合わせを正確に行うことで、より優れたハプロタイプアセンブルアルゴリズムを提供する。このアルゴリズムJava実装は、計算効率が高く、移植性が高いため、リファレンス配列に基づくハプロタイプアセンブリアプリケーションに最大限の影響を与えることが期待される。

 

インストール

ubuntu18でテストした。
Github

git clone https://github.com/mfruzan/HaploMaker.git

cd HaploMaker/

> java -jar MFbio.jar

 

 

実行方法

ランにはfasta形式のリファレンスファイルとそのインデックス(.fai)、ソートされたbamファイル 、bamに対応するVCFファイルが必要。

> java -Xmx20g -jar MFbio.jar --task diploidhap --vcf chi.vcf --out haplotypes.hap --afl 400 --seqtype pairedend --minmapq 10 --maxmapq 50 --ref ref.fa --refx ref.fa.fai --bam Chi.bam > out.log

 

 

引用

HaploMaker: An improved algorithm for rapid haplotype assembly of genomic sequences 
Mario Fruzangohar, William A Timmins, Olena Kravchuk, Julian Taylor
GigaScience, Volume 11, 2022

 

関連