Satellite Repeat Finder(SRF)は、ゲノム上で何度もタンデムに繰り返されるサテライトDNAのモチーフを組み立てるツールである。ショートリード、高精度ロングリード、高品質コンティグを入力とし、各リピートユニットのコンセンサスを報告する。SRFは、de novoアセンブリでは見逃されがちなサテライトリピートを特定することができる。高次反復配列(HOR)に富む生物種では、最小反復単位ではなく、HORを見つける傾向がある。また、ミトコンドリアゲノムや葉緑体ゲノムなど、環状のゲノムの存在量が多い場合には、そのようなゲノムを見つけることができる可能性がある。
SRF (Satellite Repeat Finder) is a simple tool to reconstruct the repeat motifs in long satellite repeats from short reads, accurate long reads or high-quality contigs. https://t.co/ef9fda2Byo
— Heng Li (@lh3lh3) August 11, 2022
インストール
本体 Github
git clone https://github.com/lh3/srf
cd srf && make
> ./srf -h
Usage: srf [options] <in.txt>
Options:
-p STR output prefix []
-l INT min length [5]
実行方法
1,KMCを使って頻度の高い配列をカウントする。十分に長いK値とカットオフ値を使用することが推奨されている。
kmc -fq -k151 -t16 -ci100 -cs100000 HiFi-reads.fq.gz count.kmc tmp_dir
kmc_dump count.kmc count.txt
2,SRFを実行してコンティグを取得する。
srf -p prefix count.txt > srf.fa
引用
GitHub - lh3/srf: SRF: Satellite Repeat Finder