本スクリプト T2T_chromosomes.shは、テロメア-2-テロメアのアセンブリ配列末端のテロメアリピートを同定する。定義として、リファレンスの染色体を指定し、それの全長をカバーしているアセンブリ配列であることと、そのようなアセンブリ配列の両端にユーザー定義のモチーフを持つ配列を条件としている。
インストール
ubuntu22.04でテストした。
依存(いずれもレポジトリに含まれている。)
- Minigraph
- SeqKit
- tidk
#cloneし、実行権を付けてパスを通す
git clone https://github.com/prasad693/T2T_Sequences.git
cd T2T_Sequences
chmod 777 *
export PATH=$PATH:$(pwd)
Usage: T2T_Sequences/T2T_chromosomes.sh [-a Asm_fasta] [-r Reference_fasta] [-o Output prefix] [-m motif] [-t threads] [-h]
Options:
-a file Assembly fasta file [required]
-r file Reference fasta file [optional]
-o file Output file prefix [default: T2T_sequences]
-m string Telomere motif to search [default: TTAGGG]
-t int Number of threads used for minigraph, seqkit [default: 10]
-h, Show this help message
mailto: sarashettp@gis.a-star.edu.sg
実行方法
アセンブリ配列、参照とするT2Tアセンブリ、テロメアリピート配列、スレッド数を指定する。
T2T_chromosomes.sh -a assembly.fasta -r reference.fasta -o output_prefix -m TTAGGG -t 10
出力には、同定されたテロメア配列全長のfataファイル、配列名、配列長、N数を描いたCSVが含まれる。リファレンスFastaが提供されている場合は、CSVにリファレンス染色体と染色体長も表記される。
引用
https://github.com/prasad693/Tel_Sequences?tab=readme-ov-file
関連
・配列をアセンブリグラフにマッピングしてグラフを拡張する minigraph