macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

T2Tアセンブリのテロメア配列を同定する T2T_chromosomes.shスクリプト

 

スクリプト T2T_chromosomes.shは、テロメア-2-テロメアアセンブリ配列末端のテロメアリピートを同定する。定義として、リファレンスの染色体を指定し、それの全長をカバーしているアセンブリ配列であることと、そのようなアセンブリ配列の両端にユーザー定義のモチーフを持つ配列を条件としている。

 

インストール

ubuntu22.04でテストした。

依存(いずれもレポジトリに含まれている。)

  • Minigraph
  • SeqKit
  • tidk

Github

#cloneし、実行権を付けてパスを通す
git clone https://github.com/prasad693/T2T_Sequences.git
cd T2T_Sequences
chmod 777 *
export PATH=$PATH:$(pwd)
> T2T_chromosomes.sh 

Usage: T2T_Sequences/T2T_chromosomes.sh [-a Asm_fasta] [-r Reference_fasta] [-o Output prefix] [-m motif] [-t threads] [-h]

Options:

   -a file         Assembly fasta file [required]

   -r file         Reference fasta file [optional]

   -o file         Output file prefix [default: T2T_sequences]

   -m string       Telomere motif to search [default: TTAGGG]

   -t int          Number of threads used for minigraph, seqkit [default: 10]

   -h,             Show this help message

mailto: sarashettp@gis.a-star.edu.sg

 

 

実行方法

アセンブリ配列、参照とするT2Tアセンブリテロメアリピート配列、スレッド数を指定する。

T2T_chromosomes.sh -a assembly.fasta -r reference.fasta -o output_prefix -m TTAGGG -t 10

 

出力には、同定されたテロメア配列全長のfataファイル、配列名、配列長、N数を描いたCSVが含まれる。リファレンスFastaが提供されている場合は、CSVにリファレンス染色体と染色体長も表記される。

引用

https://github.com/prasad693/Tel_Sequences?tab=readme-ov-file

 

関連

配列をアセンブリグラフにマッピングしてグラフを拡張する minigraph 

fastq / fastaの操作ツール seqkit