レポジトリより(一部改変)
Dnaaplerはシンプルなpythonプログラムで、一塩基の入力配列(FASTA形式)を受け取り、アミノ酸配列データベースに対してblastxを用いて目的の開始遺伝子を見つけ、この遺伝子の開始コドンが見つかったかどうかをチェックし、見つかった場合は、この遺伝子を順鎖に持つように染色体をreorientation(以後、再配向)する。
元々Unicyclerの再配向機能をdnaAで再現するために設計されたが、プラスミドやファージ、あるいはdnaapler custom、dnaapler mystery、dnaapler nearestで任意の入力FASTAで動作するように拡張された。
細菌chromosomeの場合、dnaapler chromosomeコマンドは、chromosomeの見かけの切断点が遺伝子やプロファージのような移動性遺伝要素に割り込まないようにする必要がある。これは、Trycycler、Dragonflye、あるいは著者自身のパイプラインhybracterのような方法で作成された、質の良い完成した細菌ゲノムで使用することを想定している。
さらに、dnaapler bulkサブコマンドを使って、複数の細菌chromosome/プラスミド/ファージを一度に再配向することもできる。
Documentation
https://dnaapler.readthedocs.io/en/latest/
インストール
#conda(link)
mamba create -n dnaapler_env dnaapler
conda activate dnaapler_env
#pip (blast+も必要)
pip install dnaapler
> dnaapler -h
Usage: dnaapler [OPTIONS] COMMAND [ARGS]...
Options:
-h, --help Show this message and exit.
-V, --version Show the version and exit.
Commands:
bulk Reorients multiple genomes to begin with the same gene
chromosome Reorients your genome to begin with the dnaA chromosomal...
citation Print the citation(s) for this tool
custom Reorients your genome with a custom database
mystery Reorients your genome with a random CDS
nearest Reorients your genome the begin with the first CDS as...
phage Reorients your genome to begin with the terL large...
plasmid Reorients your genome to begin with the repA replication...
> dnaapler chromosome -h
Usage: dnaapler chromosome [OPTIONS]
Reorients your genome to begin with the dnaA chromosomal replication
initiation gene
Options:
-h, --help Show this message and exit.
-V, --version Show the version and exit.
-i, --input PATH Path to input file in FASTA format [required]
-o, --output PATH Output directory [default: output.dnaapler]
-t, --threads INTEGER Number of threads to use with BLAST [default: 1]
-p, --prefix TEXT Prefix for output files [default: dnaapler]
-f, --force Force overwrites the output directory
-e, --evalue TEXT e value for blastx [default: 1e-10]
-a, --autocomplete TEXT Choose an option to autocomplete reorientation if
BLAST based approach fails. Must be one of: none,
mystery or nearest [default: none]
--seed_value INTEGER Random seed to ensure reproducibility. [default:
> dnaapler custom -h
Usage: dnaapler custom [OPTIONS]
Reorients your genome with a custom database
Options:
-h, --help Show this message and exit.
-V, --version Show the version and exit.
-i, --input PATH Path to input file in FASTA format [required]
-o, --output PATH Output directory [default: output.dnaapler]
-t, --threads INTEGER Number of threads to use with BLAST [default: 1]
-p, --prefix TEXT Prefix for output files [default: dnaapler]
-f, --force Force overwrites the output directory
-e, --evalue TEXT e value for blastx [default: 1e-10]
-c, --custom_db PATH FASTA file with amino acids that will be used as a
custom blast database to reorient your sequence
however you want. [required]
-a, --autocomplete TEXT Choose an option to autocomplete reorientation if
BLAST based approach fails. Must be one of: none,
mystery or nearest [default: none]
--seed_value INTEGER Random seed to ensure reproducibility. [default:
実行方法
chromosome 染色体複製開始遺伝子dnaA上流から開始するように再配向
完全長のchr配列のfastaファイルを指定する。
dnaapler chromosome -i input.fasta -o outdir -p prefix -t 8
- -i Path to input file in FASTA format [required]
- -o Output directory [default: output.dnaapler]
- -t Number of threads to use with BLAST [default: 1]
- -p Prefix for output files [default: dnaapler]
- -e e value for blastx [default: 1e-10]
plasmid プラスミド複製開始遺伝子repAから開始するように配列を再配向
完全長のプラスミド配列のfastaファイルを指定する。
dnaapler plasmid -i input.fasta -o outdir -p prefix -t 8
phage large terminase subunit (terL) 遺伝子で始まるように配列を再配向
完全長のファージ配列のfastaファイルを指定する。
dnaapler phage -i input.fasta -o outdir -p prefix -t 8
custom 指定したアミノ酸FASTAフォーマット遺伝子から開始するように配列を再配向
完全長配列のfastaファイルと、再配向の起点とする遺伝子のタンパク質配列を指定する。
dnaapler custom -i input.fasta -o outdir -p prefix -t 8 -c database_file
- -c FASTA file with amino acids that will be used as a custom blast database to reorient your sequence however you want. [required]
mystery ランダムなCDSから開始するように配列を再配向
完全長配列のfastaファイルを指定する。
dnaapler mystery -i input.fasta -o outdir -p prefix
nearest 最初のCDS(開始点に最も近いCDS)から開始するように再配向
CDSがブレークポイントにまたがっている配列を修正するために設計されています。
Pyrodigalによって予測された最初のコーディング配列(CDS)で始まるように配列を再配列する。
dnaapler nearest -i input.fasta -o outdir -p prefix
bulk 複数の環状配列を含むfastaファイルを目的の開始遺伝子で開始するように再配向
"-m"(-mode)に、chromosome、ファージ、プラスミド、カスタムのいずれかを指定して、dnaaplerに実行するモードを指示する必要がある。デフォルトは-m chromosome。"-m custom"を選択した場合は、"-c"(-custom_db)でカスタムデータベースのアミノ酸ファイルを指定する。入力FASTAには少なくとも2つのコンティグが必要。
dnaapler bulk -i input_file_with_multiple_chromosomes.fasta -m chromosome -o outdir -p prefix
- ロングリードで読んでいるにも関わらず環状化が難しい細菌chromosomeアセンブリを扱っている方は、レポジトリの"After reading Ryan Wick's~"のtipsを試してみて下さい。環状化(Finish)できるかもしれません。ただし、細菌でも稀に線状のchromosomeや線状のplasmid配列を持つ系統が報告されています。注意して下さい。
引用
https://github.com/gbouras13/dnaapler
関連
https://kazumaxneo.hatenablog.com/entry/2017/10/01/182022