macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Prokaryotesのアノテーションツール Prokka

2018 10/6 タイトル修正 

2019 4/3 説明修正

2019 4/12 dockerリンク追加

2019 5/27 インストール方法追加

2019 7/6 dockerリンク修正

2019 7/6 コマンド修正、help追加、タイトル修正

2019 8/24 インストールの説明の誤り修正、バージョンアップ追記

2019 8/24 crisper、IS、AMR tag追加

2019 10/3誤字修正

2019 10/3 dockerを使う例を追記

 

 

 

Prokkaは、バクテリアアーキア、ウィルスのアノテーションツール。はじめにblast+でcore geneを特定し、それからHMMER3を使ってより高感度かつ精度の高いコード領域の特定が行われる。

 

バージョンアップされてますね。

 

バージョン

Releases · tseemann/prokka · GitHub

 

 

インストール

ubuntu18.0.4のminiconda3.4.0.5環境にてテストした。

本体 Github

conda、またはbrewで導入する。

#bioconda (link)
conda install -c conda-forge -c bioconda -c defaults prokka

#v 1.14.0-0を入れるなら
conda install -c conda-forge -c bioconda -c defaults prokka==1.14.0-0

#condaの環境を作って導入
conda create -c bioconda -n prokka python=2.7 prokka

#homebrew
brew install prokka


#perlライブラリが入らなければcpanmで導入 -Lでパス指定
sudo cpan Time::Piece XML::Simple Digest::MD5 Bio::Perl

#インストールができない場合、gitで最新版をダウンロードする方法が推奨されている
git clone https://github.com/tseemann/prokka.git
cd prokka/ #ダウンロードしたprokka/に移動
bin/prokka --setupdb #Index the sequence databasesをする

dockerイメージ

https://hub.docker.com/r/staphb/prokka/

docker pull staphb/prokka:latest

prokka -h

Name:

  Prokka 1.14.0 by Torsten Seemann <torsten.seemann@gmail.com>

Synopsis:

  rapid bacterial genome annotation

Usage:

  prokka [options] <contigs.fasta>

General:

  --help             This help

  --version          Print version and exit

  --docs             Show full manual/documentation

  --citation         Print citation for referencing Prokka

  --quiet            No screen output (default OFF)

  --debug            Debug mode: keep all temporary files (default OFF)

Setup:

  --dbdir [X]        Prokka database root folders (default '/root/.pyenv/versions/miniconda3-4.0.5/db')

  --listdb           List all configured databases

  --setupdb          Index all installed databases

  --cleandb          Remove all database indices

  --depends          List all software dependencies

Outputs:

  --outdir [X]       Output folder [auto] (default '')

  --force            Force overwriting existing output folder (default OFF)

  --prefix [X]       Filename output prefix [auto] (default '')

  --addgenes         Add 'gene' features for each 'CDS' feature (default OFF)

  --addmrna          Add 'mRNA' features for each 'CDS' feature (default OFF)

  --locustag [X]     Locus tag prefix [auto] (default '')

  --increment [N]    Locus tag counter increment (default '1')

  --gffver [N]       GFF version (default '3')

  --compliant        Force Genbank/ENA/DDJB compliance: --addgenes --mincontiglen 200 --centre XXX (default OFF)

  --centre [X]       Sequencing centre ID. (default '')

  --accver [N]       Version to put in Genbank file (default '1')

Organism details:

  --genus [X]        Genus name (default 'Genus')

  --species [X]      Species name (default 'species')

  --strain [X]       Strain name (default 'strain')

  --plasmid [X]      Plasmid name or identifier (default '')

Annotations:

  --kingdom [X]      Annotation mode: Archaea|Bacteria|Bacteria|Bacteria|Mitochondria|Viruses (default 'Bacteria')

  --gcode [N]        Genetic code / Translation table (set if --kingdom is set) (default '0')

  --gram [X]         Gram: -/neg +/pos (default '')

  --usegenus         Use genus-specific BLAST databases (needs --genus) (default OFF)

  --proteins [X]     FASTA or GBK file to use as 1st priority (default '')

  --hmms [X]         Trusted HMM to first annotate from (default '')

  --metagenome       Improve gene predictions for highly fragmented genomes (default OFF)

  --rawproduct       Do not clean up /product annotation (default OFF)

  --cdsrnaolap       Allow [tr]RNA to overlap CDS (default OFF)

Matching:

  --evalue [n.n]     Similarity e-value cut-off (default '1e-09')

  --coverage [n.n]   Minimum coverage on query protein (default '80')

Computation:

  --cpus [N]         Number of CPUs to use [0=all] (default '8')

  --fast             Fast mode - only use basic BLASTP databases (default OFF)

  --noanno           For CDS just set /product="unannotated protein" (default OFF)

  --mincontiglen [N] Minimum contig size [NCBI needs 200] (default '1')

  --rfam             Enable searching for ncRNAs with Infernal+Rfam (SLOW!) (default '0')

  --norrna           Don't run rRNA search (default OFF)

  --notrna           Don't run tRNA search (default OFF)

  --rnammer          Prefer RNAmmer over Barrnap for rRNA prediction (default OFF)

root@568b4768ccac:/data# 

root@568b4768ccac:/data# 

 

z620:15:06:47 nanopore2_small $

 

 

実行方法

アセブルして作ったscaffodls.fastaやFinished genomeをアノテーションする(*1)。

prokka scaffolds.fasta -o prokka_output

ランが終わるとoutputディレクトリの中にgtf、gff、faa、fnn、gbfなどができる。gbfがgenbank形式のファイルになる。

f:id:kazumaxneo:20190706172830j:plain

 データベースに登録するためのオプションや、Genus特異的に調べるオプションもある。またローカルにすでにたくさんのgenbankファイルを持っている人なら、それをデータベースにして、精度の高いアノテーション解析を行うことができる。詳細は公式マニュアルを確認してください。

 

dockerを使う。

docker run --rm -itv $PWD:/data/ -w /data staphb/prokka:latest \
prokka input_genome.fasta -o prokka_output

 

引用

Prokka: rapid prokaryotic genome annotation

Seemann T

Bioinformatics. 2014 Jul 15;30(14):2068-9

  

 

*1

tbl2asnでエラーになったら、tbl2asnだけ導入し直してください。NCBIの定めた使用期限が設定されているようです。

Could not run command: tbl2asn · Issue #139 · tseemann/prokka · GitHub