2025/02/27 追記
正確なセントロメアのアノテーションは、染色体の安定性、遺伝子制御、複雑なゲノム構造を解明するために不可欠である。しかし、既存のアノテーション手法は、予備知識に依存することが多く、多様なゲノム状況への適用には限界がある。本研究では、複雑なゲノム、アセンブリ、セントロメア配列、生のシーケンスデータから、セントロメアとタンデムリピートの正確なアノテーションを直接行えるように調整された、新規のde novoアルゴリズムであるCentromere Annotator (centroAnno)を紹介する。シミュレートされたデータセットと実際のデータセットの両方で広範な評価を行った結果、centroAnnoはアノテーションの精度で一貫して既存のツールを上回った。さらに、centroAnnoは効率を大幅に向上させ、ヒトのセントロメリック領域に適用した場合、他の手法の12倍から44倍のアノテーション速度を達成した。
インストール
レポジトリからcloneしてビルドした(ubuntu22.04, g++ 7.4.0)。
git clone https://github.com/junhaiqi/centroAnno.git
cd centroAnno
make -j8
> ./centroAnno
$ ./centroAnno
Version 1.0.1
Usage: ./centroAnno [Options:] <in.fa>
Options:
-o STR Specify the output folder [required parameters]
-m STR Specify the monomer template file with fasta type [default = None]
-k INT Specify the k-mer size [default = 13]
-f FLOAT Specify the fps cutoff [default = 0.6]
-r FLOAT Specify the repeat redio cutoff [default = 0.2]
-w INT Specify the window size for infering templates [default = 500000]
-c BOOL Specify closing the homopolymer compression [default = false]
-e FLOAT Specify the indentity cutoff for DBSCAN [default = 0.95]
-t INT Specify the number of threads for template inference [default = 8]
-M INT Specify the maximum number of monomers that a HOR can contain [default = 50]
-L INT Specify the length cutoff that the annotated sequence needs to meet [default = 5000]
-A INT Specify the maxinum length cutoff that the annotated region in the genome needs to meet for speed [default = 1000000]
-N INT Specify the mininum length cutoff that the annotated region in the genome needs to meet for accuracy [default = 100]
-F FLOAT Specify the indentity cutoff for genome annotation [default = 0.8]
-S BOOL Specify the repeated sequences are scanned out without annotation [default = false]
-G BOOL Specify the tendem repeat of genome are annotated [default = false]
example command: ./centroAnno -o test test.fa
テストラン
出力ディレクトリとゲノムのfastaファイルの指定は必須となっている。
./centroAnno example/cen21.fa -o example/test
出力例

出力についてはレポジトリで簡単に説明されています。
> head CP068257.1_11699867-12031015_decomposedResult.csv

引用
De novo annotation of centromere with centroAnno
junhai qi
bioRxiv, Posted February 21, 2025.
*1
core dumpする。その後、issue1で修正していただいた。共有ライブラリがCPUの命令セットと一致していなかった。
git clone --recursive https://github.com/rvaser/spoa.git
cd spoa
mkdir build
cd build
cmake -DCMAKE_CXX_FLAGS="-march=x86-64" ..
make -j8
cp lib/libspoa.a <path>/<to>/centroAnno/lib/
#Then, recompile
make clean && make -j8