macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

細菌chromsomeの環状性をチェックしてリスタートさせる ReCycled

 

 多くの公開されている細菌ゲノムでは、染色体開始点が複製開始タンパク質に設定されていない。これは、このようなゲノム間のシンテニーを容易に評価できないため、比較ゲノム研究の負担となっている。ReCycledは、環状chromosomeの開始点を同定し、リセットするためのツールである。GPL-3.0ライセンスのもと、GitHubhttps://github.com/Freevini/ReCycled)でフリーに利用できる。テスト済みのすべてのGNU/Linuxシステムで動作する。

 

簡単に言うと、ReCycledは複製起点(すなわちdnaA)の存在を検出する。さらに、生データをマッピングすることでコンティグのエッジでのオーバーラップを探し、コンティグの環状性をチェックする。この情報に基づいて、細菌染色体をdnaA遺伝子の上流にリスタートさせる。

 

インストール

mambaで環境を作って導入した。

依存

  • Linux
  • bedtools
  • Minimap2

Github

mamba create -n ReCycled -y
conda activate ReCycled
mamba install -c bioconda minimap2 bedtools -y

git clone https://github.com/Freevini/ReCycled.git
cd ReCycled
#パスを通す
export PATH=${PWD}:$PATH

> ./ReCycled.sh -h

ReCycled: checks the circularity of contigs and restarts them at replication initiation protein

 

minimal syntax: ReCycled -i <genome_input.fasta> -l <raw_long_read.fastq.gz>

options:

 

INPUT

   -i     Input genome name (in fasta format) (MANDATORY)

   -l     Long read file (fq or fq.gz) (MANDATORY)

   -f     Short read forward read (read 1) (fq or fq.gz)

   -r     Short read reverse read (read 2) (fq or fq.gz)

   -a     Additional custom initiation protein database (add a nucleotide fasta file)

 

OUTPUT

   -d     Output directory [.]

   -o     Output file name 

 

RUNNING OPTIONS

   -t     Number of threads to use [4]

   -x     Keep all tmp files created [N]

   -F     Force intermediate file to run again [N]

 

INFOS

   -h     Help option

   -V     Print Version [N]

 

テストラン

ゲノムのfastaとそのロングシークエンシングリードの指定は必須となっている。

cd testData/
ReCycled.sh -i oneCircularContigs_SRR3880379.fasta -l oneCircularContigs_SRR3880379.fq.gz -t 8
  • -i     Input genome name (in fasta format) (MANDATORY) 
  • -l     Long read file (fq or fq.gz) (MANDATORY)
  • -t     Number of threads to use [4]

.fastaが新しくリスタートされたfastaファイル。

 

出力prefix("-o")と出力ディレクトリ("-d")を指定し、中間ファイルも残す("-x")。

ReCycled.sh -i oneCircularContigs_SRR3880379.fasta -l oneCircularContigs_SRR3880379.fq.gz -o results -d outdir -x
  • -d     Output directory [.]
  • -o     Output file name 
  • -x     Keep all tmp files created [N]

> ls -lt outdir

 

multi-fastaを提供した場合、リスタートされたコンティグもされていないコンティグも1つのmulti-fastaの状態で出力される。

cd testData/
ReCycled.sh -i oneCircularContigs_SRR3880379.fasta -l oneCircularContigs_SRR3880379.fq.gz -t 8 -o results -d outdir -x

grep ">" results.fasta

リスタートされたコンティグにはヘッダーに_restartが付く。

 

その他(レポジトリより)

  • ReCycledは、細菌ゲノムアセンブリの環状性をロングリードを使ってチェックし、環状と判断されると、複製開始タンパク質dnaAの位置に応じてリスタートする
  • ReCycledはコンティグをポリッシュしない。
    ReCycledは非細菌性コンティグをリスタートしない。レポートとして報告されるが、位置は変更されない。

引用

ReCycled: A Tool to Reset the Start of Circular Bacterial Chromosomes

Vincent Somerville, Michael Schmid,  Matthias Dreier,  Philipp Engel

bioRxiv, Posted April 09, 2025.

 

関連