ODGI のdepthコマンドは、グラフのデプスをプリントする。チュートリアル(link)では、このdepthコマンドを使い、44人の個人からのハプロイドフェージングされた第8番染色体の88個の配列のパンゲノムバリエーショングラフから個体間で共通してデプスが減少している領域を調べ、結果について考察している。
Detect complex regions
https://odgi.readthedocs.io/en/latest/rst/tutorials/detect_complex_regions.html
チュートリアルの通り進める。
1、GFAの取得と変換
wget -c https://s3-us-west-2.amazonaws.com/human-pangenomics/pangenomes/scratch/2021_05_06_pggb/gfas/chr8.pan.gfa.gz
gunzip chr8.pan.gfa.gz
#GFA1グラフを odgiバイナリに変換
odgi build -g chr8.pan.gfa -o chr8.pan.og --threads 2 -P
ダウンロードされたGFAは、88個のハプロイド染色体配列と、リファレンスとして入れられたchm13とGRCh38 の配列から構築されいる。
2、繰り返し配列を見つけるために、グラフの特定のノードのデプスを調べる(あるノードがグラフ内の全てのパスによって横切られる回数がノードのデプスと定義されている)。それにはodgi depthコマンドを使い、bedtoolsに渡す。5000bpsのウィンドウサイズで計算する。-rでデプスを計算する元となるパス名を指定する。チュートリアルではリファレンスとして組み込んでいるchm13#chr8を指定している。
#1 odgi depthでchm13#chr8全体の長さ(と平均デプス)を計算し、5000-bpのウィンドウサイズテキストを出力
odgi depth -i chr8.pan.og -r chm13#chr8 | \
bedtools makewindows -b /dev/stdin -w 5000 > chm13.chr8.w5kbps.bed
#2 5000bpのウィンドウそれぞれの平均デプスを出力。-bで#1のテキストを指定
odgi depth -i chr8.pan.og -b chm13.chr8.w5kbps.bed --threads 2 | \
bedtools sort > chr8.pan.depth.w5kbps.bed
BED形式の出力
chr8.pan.depth.w5kbps.bed
4列目が平均デプス。チュートリアルのように平均デプスとポジションの関係をプロットすると、ノードのどの領域のデプスが深いのか明確になる(チュートリアルではセントロメアや遺伝子クラスターとされている)。
引用
https://odgi.readthedocs.io/en/latest/rst/tutorials/detect_complex_regions.html