macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ODGI のdepthコマンド

ODGI のdepthコマンドは、グラフのデプスをプリントする。チュートリアルlink)では、このdepthコマンドを使い、44人の個人からのハプロイドフェージングされた第8番染色体の88個の配列のパンゲノムバリエーショングラフから個体間で共通してデプスが減少している領域を調べ、結果について考察している。

 

Detect complex regions

https://odgi.readthedocs.io/en/latest/rst/tutorials/detect_complex_regions.html

 

チュートリアルの通り進める。

1、GFAの取得と変換

wget -c https://s3-us-west-2.amazonaws.com/human-pangenomics/pangenomes/scratch/2021_05_06_pggb/gfas/chr8.pan.gfa.gz
gunzip chr8.pan.gfa.gz

#GFA1グラフを odgiバイナリに変換
odgi build -g chr8.pan.gfa -o chr8.pan.og --threads 2 -P

ダウンロードされたGFAは、88個のハプロイド染色体配列と、リファレンスとして入れられたchm13とGRCh38 の配列から構築されいる。

 

2、繰り返し配列を見つけるために、グラフの特定のノードのデプスを調べる(あるノードがグラフ内の全てのパスによって横切られる回数がノードのデプスと定義されている)。それにはodgi depthコマンドを使い、bedtoolsに渡す。5000bpsのウィンドウサイズで計算する。-rでデプスを計算する元となるパス名を指定する。チュートリアルではリファレンスとして組み込んでいるchm13#chr8を指定している。

#1 odgi depthでchm13#chr8全体の長さ(と平均デプス)を計算し、5000-bpのウィンドウサイズテキストを出力
odgi depth -i chr8.pan.og -r chm13#chr8 | \
bedtools makewindows -b /dev/stdin -w 5000 > chm13.chr8.w5kbps.bed

#2 5000bpのウィンドウそれぞれの平均デプスを出力。-bで#1のテキストを指定
odgi depth -i chr8.pan.og -b chm13.chr8.w5kbps.bed --threads 2 | \
    bedtools sort > chr8.pan.depth.w5kbps.bed

BED形式の出力

chr8.pan.depth.w5kbps.bed

4列目が平均デプス。チュートリアルのように平均デプスとポジションの関係をプロットすると、ノードのどの領域のデプスが深いのか明確になる(チュートリアルではセントロメアや遺伝子クラスターとされている)。

 

引用

https://odgi.readthedocs.io/en/latest/rst/tutorials/detect_complex_regions.html