多くの公開されている細菌ゲノムでは、染色体開始点が複製開始タンパク質に設定されていない。これは、このようなゲノム間のシンテニーを容易に評価できないため、比較ゲノム研究の負担となっている。ReCycledは、環状chromosomeの開始点を同定し、リセットするためのツールである。GPL-3.0ライセンスのもと、GitHub(https://github.com/Freevini/ReCycled)でフリーに利用できる。テスト済みのすべてのGNU/Linuxシステムで動作する。
簡単に言うと、ReCycledは複製起点(すなわちdnaA)の存在を検出する。さらに、生データをマッピングすることでコンティグのエッジでのオーバーラップを探し、コンティグの環状性をチェックする。この情報に基づいて、細菌染色体をdnaA遺伝子の上流にリスタートさせる。
インストール
mambaで環境を作って導入した。
依存
- Linux
- bedtools
- Minimap2
mamba create -n ReCycled -y
conda activate ReCycled
mamba install -c bioconda minimap2 bedtools -y
git clone https://github.com/Freevini/ReCycled.git
cd ReCycled
#パスを通す
export PATH=${PWD}:$PATH
> ./ReCycled.sh -h
ReCycled: checks the circularity of contigs and restarts them at replication initiation protein
minimal syntax: ReCycled -i <genome_input.fasta> -l <raw_long_read.fastq.gz>
options:
INPUT
-i Input genome name (in fasta format) (MANDATORY)
-l Long read file (fq or fq.gz) (MANDATORY)
-f Short read forward read (read 1) (fq or fq.gz)
-r Short read reverse read (read 2) (fq or fq.gz)
-a Additional custom initiation protein database (add a nucleotide fasta file)
OUTPUT
-d Output directory [.]
-o Output file name
RUNNING OPTIONS
-t Number of threads to use [4]
-x Keep all tmp files created [N]
-F Force intermediate file to run again [N]
INFOS
-h Help option
-V Print Version [N]
テストラン
ゲノムのfastaとそのロングシークエンシングリードの指定は必須となっている。
cd testData/
ReCycled.sh -i oneCircularContigs_SRR3880379.fasta -l oneCircularContigs_SRR3880379.fq.gz -t 8
- -i Input genome name (in fasta format) (MANDATORY)
- -l Long read file (fq or fq.gz) (MANDATORY)
- -t Number of threads to use [4]

出力prefix("-o")と出力ディレクトリ("-d")を指定し、中間ファイルも残す("-x")。
ReCycled.sh -i oneCircularContigs_SRR3880379.fasta -l oneCircularContigs_SRR3880379.fq.gz -o results -d outdir -x
- -d Output directory [.]
- -o Output file name
- -x Keep all tmp files created [N]
> ls -lt outdir

multi-fastaを提供した場合、リスタートされたコンティグもされていないコンティグも1つのmulti-fastaの状態で出力される。
cd testData/
ReCycled.sh -i oneCircularContigs_SRR3880379.fasta -l oneCircularContigs_SRR3880379.fq.gz -t 8 -o results -d outdir -x

リスタートされたコンティグにはヘッダーに_restartが付く。
その他(レポジトリより)
- ReCycledは、細菌ゲノムアセンブリの環状性をロングリードを使ってチェックし、環状と判断されると、複製開始タンパク質dnaAの位置に応じてリスタートする
- ReCycledはコンティグをポリッシュしない。
ReCycledは非細菌性コンティグをリスタートしない。レポートとして報告されるが、位置は変更されない。
引用
ReCycled: A Tool to Reset the Start of Circular Bacterial Chromosomes
Vincent Somerville, Michael Schmid, Matthias Dreier, Philipp Engel
bioRxiv, Posted April 09, 2025.
関連