macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

親から子へゲノムのどの部分が受け継がれたかを描画する Pedigree Painter (pepa)

 

 ゲノミクス分野においてデータ可視化はますます重要性を増しており、研究者が世代を超えて遺伝と組み換えのパターンを解明するのを可能にしている。既存のツールの多くは祖先予測に焦点を当てているが、親の遺伝子が子孫のゲノムにどのように寄与するかを分析するなどの制御された環境での既知の祖先分析機能は欠如している。このギャップを埋めるため、本著者はpepaを開発した。pepaは、初心者から上級者までを対象とした軽量で確定的かつモジュール式のツールで、ゲノム遺伝の可視化と定量化を可能にする。pepaは、VCFファイルの処理、ホモ接合体SNPへの祖先情報の割り当て、およびそれらを生物学的に意味のある領域にクラスタリングするプログラムである。人間が読みやすい比較可能な表を生成し、Rを使用して染色体ペイントを通じて遺伝パターンを可視化する。分裂酵母でテストされた結果、pepaは非一様な組み換えパターンを明らかにし、染色体は主に一方の親から継承され、組み換えはランダムに発生しているように見えた。定量分析では、ヌクレオチドレベルと遺伝子レベルで親の寄与率に違いが認められ、一部の子孫は親から類似の割合を継承していた。しかし、染色体ペイントは、親から類似の割合を継承した子孫でも、同じゲノム領域を継承することはほとんどないことを示し、このツールが生物学的に意味のある洞察を引き出す上で重要な役割を果たすことを強調している。pepaは、実験生物学と計算生物学を橋渡しする、ゲノム継承分析のためのアクセスしやすく強力なソリューションを提供する。そのモジュール式設計と最小限の依存関係により、多様な生物種への適応が可能となり、組み換えダイナミクスの直感的な可視化と定量的洞察を促進する。

 

インストール

Github

mamba create -n pepa_env python=3.10 -y
conda activate pepa_env
mamba install mitopozzi::pepa -y

> pepa-paint -h

Usage: /home/kazu/mambaforge/envs/pepa_env/bin/pepa-paint -i ListVCF.txt -o Results -1 Parent1.vcf -2 Parent2.vcf -c 100

 

Required Flags:

 

  -i    Specify a file with a list of VCF files (one for each sample)

  -o    Specify the base name to generate output files

  -1    Specify the first target VCF file for comparison.

  -2    Specify the second target VCF file for comparison.

  -c    Clustering size to generate regions from SNPs (eg. 100)

 

Optional Flags:

 

  -I    Specify a file with a Comparison table (generated by pepa-table)

  -G    GTF file to convert to Anno and use

  -A    Annotation file (Anno) where all the genes in the genome are present

  -C    Optional flag to plot % of chromosomes belonging to each ancestry (default deactive)

 

  -h    Display this help message.

 

> pepa-base -h

Usage: /home/kazu/mambaforge/envs/pepa_env/bin/pepa-base -i ListVCF.txt -o Results -1 Parent1.vcf -2 Parent2.vcf -c 100

 

Required Flags:

 

  -i    Specify a file with a list of VCF files (one for each sample)

  -o    Specify the base name to generate output files

  -1    Specify the first target VCF file for comparison.

  -2    Specify the second target VCF file for comparison.

  -c    Clustering size to generate regions from SNPs (eg. 100)

 

Optional Flags:

 

  -I    Specify a file with a Comparison table (generated by pepa-table)

 

  -h    Display this help message.

 

テストラン

レポジトリには説明がないが染色体数が3個のゲノムに由来するVCFデータが含まれている。染色体数が3つである事から論文で使われている出芽酵母のデータと思われる(VCFヘッダにはPombeGenomeともある)。VCFヘッダからbcftoolsでpileupしてコールされたSNPリストと考えられる。VCFはBGzip圧縮されている。

 

pepa-paint 

両親と子のVCFを指定する。"-c"でSNPクラスタリングのサイズ(ウィンドウサイズ)を、"-G"でGTFファイルを指定する。可視化無しなら-Cオプションを消すか-C 0にする。

git clone https://github.com/Mitopozzi/PePa.git
cd PePa/Test/Example_Input/
pepa-paint -i List.txt -o Results -1 EBC091.vcf.gz -2 EBC411.vcf.gz -c 1000 -G Annotation.anno -C 1
  • -i     Specify a file with a list of VCF files (one for each sample)
  • -o    Specify the base name to generate output files
  • -1    Specify the first target VCF file for comparison.
  • -2    Specify the second target VCF file for comparison.
  • -c    Clustering size to generate regions from SNPs (eg. 100)
  • -G    GTF file to convert to Anno and use
  • -C    Optional flag to plot % of chromosomes belonging to each ancestry (default deactive)

List.tsv - 子のVCFファイルはリストとして指定する。親のVCF作成時と同じ基準ゲノムで得たVCFである必要がある。

子の VCFは4つある。複数の子のサンプルと思われる。VCFは1個でもよい。

 

出力例

Clustered.csv : 指定されたSNPクラスタリングサイズで検出された祖先ブロック。-c値を調整して解像度を微調整可能(図に影響する)。

 

Results_GenomeBarPlot.pdf

それぞれのパネルは4つの子の各個体に対応している(List.tsv通り)。染色体ごとにその染色体上の遺伝子がどの祖先由来かの割合を示す棒グラフとなっている。各パネルで棒グラフが3つあるのはS.pombeが染色体を3つ持つことに対応している。縦軸は遺伝子の割合(%)で、色は青がAncestry1、赤がAncestry2、灰色は不明を表す。Pombe1のある染色体ではAncestry1由来の遺伝子が多い、あるいは逆にAncestry2由来が多いといった違いがわかるようになっている。

 

Results_PePa_Paint.png

chr1を拡大

各行が一つの個体を表し、3本の染色体(Chr1, Chr2, Chr3)ごとに祖先由来が色分けされている。こちらの図では、領域ごとにどちらの祖先由来かが示されており、複雑な組み換えや遺伝子混入のパターンもわかるようになっている。微細な組み換えの解像度を上げるには、 -cで指定するブロックサイズを調整する。

 

pepa-gtf

解析時、GTFはpepaが扱いやすいフォーマット(.anno)に変換して使用される。.anno形式に変換するには以下のコマンドを実行する。

pepa-gtf -I NCBIannotation.gtf -O Annotation.anno

 

pepa-split

マルチsampleVCF.gz(BG-zipped)を単一sampleVCFに分離できるサポートスクリプトも作られている。軽量なため、リソースが限られた環境でも動作すると書かれている。

pepa-split -I MultiSampleVCFfile.vcf.gz -b 20

出力VCF群をリストにして、上のコマンドで指定する。

 

引用

Pedigree Painter (pepa): a tool for the visualization of genetic inheritance in chromosomal context Open Access
Andrea Pozzi
Bioinformatics, Volume 41, Issue 8, August 2025