ロングリードシーケンス技術の著しい向上により、ゲノム中のセントロメアのような複雑なゲノム領域が解明され、セントロメアのアノテーション問題が導入された。現在、セントロメアのアノテーションは半手動的に行われている。HiCATは、階層的タンデムリピートマイニングに基づき、セントロメアのアノテーションを自動化するツールである。ヒトCHM13-T2TゲノムとシロイヌナズナゲノムにHiCATを適用した。その結果、HiCATの性能と一般的な適用可能性を示すとともに、アノテーションの連続性を大幅に改善し、さらなる微細構造を明らかにした。
インストール
ubuntu20でテストした。
https://github.com/xjtu-omics/HiCAT
#from source
git clone https://github.com/xjtu-omics/HiCAT.git
cd HiCAT
mamba create -n hicat -y
conda activate hicat
mamba install -y --file requirements.txt
cd ./stringdecomposer && make -j8
cd ../
#conda(未テスト)
mamba create -n hicat -y
conda activate hicat
mamba install -c xjtuomics hicat -y
> python HiCAT.py -h
usage: HiCAT.py [-h] -i INPUT_FASTA -t MONOMER_TEMPLATE [-o OUTPUT_DIR]
[-ms MIN_SIMILARITY] [-st STEP] [-mh MAX_HOR_LEN]
[-sp SHOW_HOR_NUMBER] [-sn SHOW_HOR_MIN_REPEAT_NUMBER]
[-th THREAD]
HiCAT: automated annotation centromere
options:
-h, --help show this help message and exit
-i INPUT_FASTA, --input_fasta INPUT_FASTA
centromere DNA sequence in fasta format, required
-t MONOMER_TEMPLATE, --monomer_template MONOMER_TEMPLATE
monomer template DNA sequence in fasta format for
stringdecomposer to build block, required
-o OUTPUT_DIR, --output_dir OUTPUT_DIR
HiCAT output path default is ./HiCAT_out
-ms MIN_SIMILARITY, --min_similarity MIN_SIMILARITY
The lower bound for similarity threshold which used to
remove edges in block graph, default is 0.94
-st STEP, --step STEP
The similarity threshold iteratively increases from
min_similarity to nearly 1 with a specific step,
default is 0.005
-mh MAX_HOR_LEN, --max_hor_len MAX_HOR_LEN
An upper bound for the length of the tandem repeat
unit by default 40 monomers for improving efficiency
-sp SHOW_HOR_NUMBER, --show_hor_number SHOW_HOR_NUMBER
Default visualized the top five HORs
-sn SHOW_HOR_MIN_REPEAT_NUMBER, --show_hor_min_repeat_number SHOW_HOR_MIN_REPEAT_NUMBER
Default visualized the HORs with repeat numbers
greater than 10
-th THREAD, --thread THREAD
The number of threads, default is 1
テストラン
HiCATはモノマーのテンプレートとセントロメアDNA配列を入力とする。
cd HiCAT/
python HiCAT.py -i testdata/cen21.fa -t testdata/AlphaSat.fa
出力
HiCAT_out/
HiCAT_out/out/
out_all_layer
hor.repeatnumber
plot_pattern
plot_pattern
引用
HiCAT: a tool for automatic annotation of centromere structure
Shenghan Gao, Xiaofei Yang, Hongtao Guo, Xixi Zhao, Bo Wang & Kai Ye
Genome Biology volume 24, Article number: 58 (2023)