macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

セントロメア構造の自動アノテーションツール HiCAT

 

 ロングリードシーケンス技術の著しい向上により、ゲノム中のセントロメアのような複雑なゲノム領域が解明され、セントロメアアノテーション問題が導入された。現在、セントロメアアノテーションは半手動的に行われている。HiCATは、階層的タンデムリピートマイニングに基づき、セントロメアアノテーションを自動化するツールである。ヒトCHM13-T2TゲノムとシロイヌナズナゲノムにHiCATを適用した。その結果、HiCATの性能と一般的な適用可能性を示すとともに、アノテーションの連続性を大幅に改善し、さらなる微細構造を明らかにした。

 

インストール

ubuntu20でテストした。

Github

https://github.com/xjtu-omics/HiCAT

#from source
git clone https://github.com/xjtu-omics/HiCAT.git
cd HiCAT
mamba create -n hicat -y
conda activate hicat
mamba install -y --file requirements.txt
cd ./stringdecomposer && make -j8
cd ../

#conda(未テスト)
mamba create -n hicat -y
conda activate hicat
mamba install -c xjtuomics hicat -y

> python HiCAT.py -h

usage: HiCAT.py [-h] -i INPUT_FASTA -t MONOMER_TEMPLATE [-o OUTPUT_DIR]

                [-ms MIN_SIMILARITY] [-st STEP] [-mh MAX_HOR_LEN]

                [-sp SHOW_HOR_NUMBER] [-sn SHOW_HOR_MIN_REPEAT_NUMBER]

                [-th THREAD]

 

HiCAT: automated annotation centromere

 

options:

  -h, --help            show this help message and exit

  -i INPUT_FASTA, --input_fasta INPUT_FASTA

                        centromere DNA sequence in fasta format, required

  -t MONOMER_TEMPLATE, --monomer_template MONOMER_TEMPLATE

                        monomer template DNA sequence in fasta format for

                        stringdecomposer to build block, required

  -o OUTPUT_DIR, --output_dir OUTPUT_DIR

                        HiCAT output path default is ./HiCAT_out

  -ms MIN_SIMILARITY, --min_similarity MIN_SIMILARITY

                        The lower bound for similarity threshold which used to

                        remove edges in block graph, default is 0.94

  -st STEP, --step STEP

                        The similarity threshold iteratively increases from

                        min_similarity to nearly 1 with a specific step,

                        default is 0.005

  -mh MAX_HOR_LEN, --max_hor_len MAX_HOR_LEN

                        An upper bound for the length of the tandem repeat

                        unit by default 40 monomers for improving efficiency

  -sp SHOW_HOR_NUMBER, --show_hor_number SHOW_HOR_NUMBER

                        Default visualized the top five HORs

  -sn SHOW_HOR_MIN_REPEAT_NUMBER, --show_hor_min_repeat_number SHOW_HOR_MIN_REPEAT_NUMBER

                        Default visualized the HORs with repeat numbers

                        greater than 10

  -th THREAD, --thread THREAD

                        The number of threads, default is 1

 

 

テストラン

HiCATはモノマーのテンプレートとセントロメアDNA配列を入力とする。

cd HiCAT/
python HiCAT.py -i testdata/cen21.fa -t testdata/AlphaSat.fa

出力

HiCAT_out/

HiCAT_out/out/

out_all_layer

 

hor.repeatnumber

plot_pattern

plot_pattern

引用

HiCAT: a tool for automatic annotation of centromere structure
Shenghan Gao, Xiaofei Yang, Hongtao Guo, Xixi Zhao, Bo Wang & Kai Ye 
Genome Biology volume 24, Article number: 58 (2023)