macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

サテライトDNAモチーフをアセンブルする SRF

 

 Satellite Repeat Finder(SRF)は、ゲノム上で何度もタンデムに繰り返されるサテライトDNAのモチーフを組み立てるツールである。ショートリード、高精度ロングリード、高品質コンティグを入力とし、各リピートユニットのコンセンサスを報告する。SRFは、de novoアセンブリでは見逃されがちなサテライトリピートを特定することができる。高次反復配列(HOR)に富む生物種では、最小反復単位ではなく、HORを見つける傾向がある。また、ミトコンドリアゲノムや葉緑体ゲノムなど、環状のゲノムの存在量が多い場合には、そのようなゲノムを見つけることができる可能性がある。

 

 

インストール

本体 Github 

git clone https://github.com/lh3/srf
cd srf && make

> ./srf -h

Usage: srf [options] <in.txt>

Options:

  -p STR     output prefix []

  -l INT     min length [5]

 

 

 

実行方法

1,KMCを使って頻度の高い配列をカウントする。十分に長いK値とカットオフ値を使用することが推奨されている。

kmc -fq -k151 -t16 -ci100 -cs100000 HiFi-reads.fq.gz count.kmc tmp_dir
kmc_dump count.kmc count.txt

 

2,SRFを実行してコンティグを取得する。

srf -p prefix count.txt > srf.fa

 

 

引用

GitHub - lh3/srf: SRF: Satellite Repeat Finder