macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

セントロメアのde novoアノテーションを行う centroAnno

2025/02/27 追記

 

 正確なセントロメアアノテーションは、染色体の安定性、遺伝子制御、複雑なゲノム構造を解明するために不可欠である。しかし、既存のアノテーション手法は、予備知識に依存することが多く、多様なゲノム状況への適用には限界がある。本研究では、複雑なゲノム、アセンブリセントロメア配列、生のシーケンスデータから、セントロメアとタンデムリピートの正確なアノテーションを直接行えるように調整された、新規のde novoアルゴリズムであるCentromere Annotator (centroAnno)を紹介する。シミュレートされたデータセットと実際のデータセットの両方で広範な評価を行った結果、centroAnnoはアノテーションの精度で一貫して既存のツールを上回った。さらに、centroAnnoは効率を大幅に向上させ、ヒトのセントロメリック領域に適用した場合、他の手法の12倍から44倍のアノテーション速度を達成した。

 

インストール

レポジトリからcloneしてビルドした(ubuntu22.04,  g++ 7.4.0)。

Github

git clone https://github.com/junhaiqi/centroAnno.git
cd centroAnno
make -j8 

> ./centroAnno 

$ ./centroAnno 

Version 1.0.1

Usage: ./centroAnno [Options:] <in.fa>

Options:

  -o STR     Specify the output folder [required parameters]

  -m STR     Specify the monomer template file with fasta type [default = None]

  -k INT     Specify the k-mer size [default = 13]

  -f FLOAT   Specify the fps cutoff [default = 0.6]

  -r FLOAT   Specify the repeat redio cutoff [default = 0.2]

  -w INT     Specify the window size for infering templates [default = 500000]

  -c BOOL    Specify closing the homopolymer compression [default = false]

  -e FLOAT   Specify the indentity cutoff for DBSCAN [default = 0.95]

  -t INT     Specify the number of threads for template inference [default = 8]

  -M INT     Specify the maximum number of monomers that a HOR can contain [default = 50]

  -L INT     Specify the length cutoff that the annotated sequence needs to meet [default = 5000]

  -A INT     Specify the maxinum length cutoff that the annotated region in the genome needs to meet for speed [default = 1000000]

  -N INT     Specify the mininum length cutoff that the annotated region in the genome needs to meet for accuracy [default = 100]

  -F FLOAT   Specify the indentity cutoff for genome annotation [default = 0.8]

  -S BOOL    Specify the repeated sequences are scanned out without annotation [default = false]

  -G BOOL    Specify the tendem repeat of genome are annotated [default = false]

  example command: ./centroAnno -o test test.fa

 

 

テストラン

出力ディレクトリとゲノムのfastaファイルの指定は必須となっている。

./centroAnno example/cen21.fa -o example/test

出力例

出力についてはレポジトリで簡単に説明されています。

 

> head  CP068257.1_11699867-12031015_decomposedResult.csv 

 

引用

De novo annotation of centromere with centroAnno
junhai qi

bioRxiv, Posted February 21, 2025.

 

*1

core dumpする。その後、issue1で修正していただいた。共有ライブラリがCPUの命令セットと一致していなかった。

git clone --recursive https://github.com/rvaser/spoa.git
cd spoa
mkdir build
cd build
cmake -DCMAKE_CXX_FLAGS="-march=x86-64" ..
make -j8
cp lib/libspoa.a <path>/<to>/centroAnno/lib/

 

#Then, recompile

make clean && make -j8