macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

完全な環状ゲノムの開始位置(+1)を素早く変更する Dnaapler

 

レポジトリより(一部改変)

 Dnaaplerはシンプルなpythonプログラムで、一塩基の入力配列(FASTA形式)を受け取り、アミノ酸配列データベースに対してblastxを用いて目的の開始遺伝子を見つけ、この遺伝子の開始コドンが見つかったかどうかをチェックし、見つかった場合は、この遺伝子を順鎖に持つように染色体をreorientation(以後、再配向)する。
元々Unicyclerの再配向機能をdnaAで再現するために設計されたが、プラスミドやファージ、あるいはdnaapler custom、dnaapler mystery、dnaapler nearestで任意の入力FASTAで動作するように拡張された。
細菌chromosomeの場合、dnaapler chromosomeコマンドは、chromosomeの見かけの切断点が遺伝子やプロファージのような移動性遺伝要素に割り込まないようにする必要がある。これは、Trycycler、Dragonflye、あるいは著者自身のパイプラインhybracterのような方法で作成された、質の良い完成した細菌ゲノムで使用することを想定している。
さらに、dnaapler bulkサブコマンドを使って、複数の細菌chromosome/プラスミド/ファージを一度に再配向することもできる。

Documentation

https://dnaapler.readthedocs.io/en/latest/

 

インストール

Github

#conda(link)
mamba create -n dnaapler_env dnaapler
conda activate dnaapler_env

#pip (blast+も必要)
pip install dnaapler

> dnaapler -h

Usage: dnaapler [OPTIONS] COMMAND [ARGS]...

 

Options:

  -h, --help     Show this message and exit.

  -V, --version  Show the version and exit.

 

Commands:

  bulk        Reorients multiple genomes to begin with the same gene

  chromosome  Reorients your genome to begin with the dnaA chromosomal...

  citation    Print the citation(s) for this tool

  custom      Reorients your genome with a custom database

  mystery     Reorients your genome with a random CDS

  nearest     Reorients your genome the begin with the first CDS as...

  phage       Reorients your genome to begin with the terL large...

  plasmid     Reorients your genome to begin with the repA replication...

 

> dnaapler chromosome -h

Usage: dnaapler chromosome [OPTIONS]

 

  Reorients your genome to begin with the dnaA chromosomal replication

  initiation gene

 

Options:

  -h, --help               Show this message and exit.

  -V, --version            Show the version and exit.

  -i, --input PATH         Path to input file in FASTA format  [required]

  -o, --output PATH        Output directory   [default: output.dnaapler]

  -t, --threads INTEGER    Number of threads to use with BLAST  [default: 1]

  -p, --prefix TEXT        Prefix for output files  [default: dnaapler]

  -f, --force              Force overwrites the output directory

  -e, --evalue TEXT        e value for blastx  [default: 1e-10]

  -a, --autocomplete TEXT  Choose an option to autocomplete reorientation if

                           BLAST based approach fails. Must be one of: none,

                           mystery or nearest [default: none]

  --seed_value INTEGER     Random seed to ensure reproducibility.  [default:

 

> dnaapler custom -h

Usage: dnaapler custom [OPTIONS]

 

  Reorients your genome with a custom database

 

Options:

  -h, --help               Show this message and exit.

  -V, --version            Show the version and exit.

  -i, --input PATH         Path to input file in FASTA format  [required]

  -o, --output PATH        Output directory   [default: output.dnaapler]

  -t, --threads INTEGER    Number of threads to use with BLAST  [default: 1]

  -p, --prefix TEXT        Prefix for output files  [default: dnaapler]

  -f, --force              Force overwrites the output directory

  -e, --evalue TEXT        e value for blastx  [default: 1e-10]

  -c, --custom_db PATH     FASTA file with amino acids that will be used as a

                           custom blast database to reorient your sequence

                           however you want.  [required]

  -a, --autocomplete TEXT  Choose an option to autocomplete reorientation if

                           BLAST based approach fails. Must be one of: none,

                           mystery or nearest [default: none]

  --seed_value INTEGER     Random seed to ensure reproducibility.  [default:

 

 

 

 

実行方法

chromosome   染色体複製開始遺伝子dnaA上流から開始するように再配向

完全長のchr配列のfastaファイルを指定する。

dnaapler chromosome -i input.fasta -o outdir -p prefix -t 8
  • -i    Path to input file in FASTA format  [required]
  • -o   Output directory   [default: output.dnaapler]
  • -t    Number of threads to use with BLAST  [default: 1]
  • -p    Prefix for output files  [default: dnaapler]
  • -e    e value for blastx  [default: 1e-10]

 

plasmid   プラスミド複製開始遺伝子repAから開始するように配列を再配向

完全長のプラスミド配列のfastaファイルを指定する。

dnaapler plasmid -i input.fasta -o outdir -p prefix -t 8

 

phage     large terminase subunit (terL) 遺伝子で始まるように配列を再配向

完全長のファージ配列のfastaファイルを指定する。

dnaapler phage -i input.fasta -o outdir -p prefix -t 8

 

custom    指定したアミノ酸FASTAフォーマット遺伝子から開始するように配列を再配向

完全長配列のfastaファイルと、再配向の起点とする遺伝子のタンパク質配列を指定する。

dnaapler custom -i input.fasta -o outdir -p prefix -t 8 -c database_file
  • -c     FASTA file with amino acids that will be used as a custom blast database to reorient your sequence however you want.  [required]

 

mystery    ランダムなCDSから開始するように配列を再配向

完全長配列のfastaファイルを指定する。

dnaapler mystery -i input.fasta -o outdir -p prefix

 

nearest    最初のCDS(開始点に最も近いCDS)から開始するように再配向

CDSブレークポイントにまたがっている配列を修正するために設計されています。

Pyrodigalによって予測された最初のコーディング配列(CDS)で始まるように配列を再配列する。

dnaapler nearest -i input.fasta -o outdir -p prefix

 

bulk    複数の環状配列を含むfastaファイルを目的の開始遺伝子で開始するように再配向

"-m"(-mode)に、chromosome、ファージ、プラスミド、カスタムのいずれかを指定して、dnaaplerに実行するモードを指示する必要がある。デフォルトは-m chromosome。"-m custom"を選択した場合は、"-c"(-custom_db)でカスタムデータベースのアミノ酸ファイルを指定する。入力FASTAには少なくとも2つのコンティグが必要。

dnaapler bulk -i input_file_with_multiple_chromosomes.fasta -m chromosome -o outdir -p prefix

 

  • ロングリードで読んでいるにも関わらず環状化が難しい細菌chromosomeアセンブリを扱っている方は、レポジトリの"After reading Ryan Wick's~"のtipsを試してみて下さい。環状化(Finish)できるかもしれません。ただし、細菌でも稀に線状のchromosomeや線状のplasmid配列を持つ系統が報告されています。注意して下さい。

引用

https://github.com/gbouras13/dnaapler

 

関連

 

https://kazumaxneo.hatenablog.com/entry/2017/10/01/182022

 

https://kazumaxneo.hatenablog.com/entry/2018/04/02/123713