macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリオファージの標準的なアノテーションを行う pharokka

2024/01/12 論文引用

 

Gitrhubより

pharokkaはバクテリオファージの標準的なアノテーションを迅速に行うために設計されています。簡単に説明すると、遺伝子予測はPHANOTATE (https://github.com/deprekate/PHANOTATE) を、機能アノテーションはPHROGsデータベース (https://phrogs.lmge.uca.fr) をもとに行う。主な出力はgffファイルで、Roary (https://sanger-pathogens.github.io/Roary/)などのパンゲノムパイプラインの下流で使用するのに適している。もう一つの重要な出力はcds_functions.tsvで、CDS、tRNA、およびPHROGsデータベースに従ってCDSに割り当てられた機能のカウントが含まれています。

 

 

インストール

提供されているYAMLファイルで環境を作ってテストした。

Github

#conda (pythyon3.8環境で導入テスト済み)
mamba create -n pharokka -y
conda activate pharokka
mamba install pharokka -c gbouras13 -c bioconda -y

git clone https://github.com/gbouras13/pharokka.git
cd pharokka
mamba env create -f environment.yml
conda activate pharokka_env

python bin/pharokka.py -h

usage: pharokka.py [-h] -i INFILE [-o OUTDIR] [-d DATABASE] [-t THREADS] [-f] [-p PREFIX] [-V]

 

pharokka: phage genome annotation piepline

 

optional arguments:

  -h, --help            show this help message and exit

  -i INFILE, --infile INFILE

                        input file in fasta format

  -o OUTDIR, --outdir OUTDIR

                        where to write the output

  -d DATABASE, --database DATABASE

                        database directory. If the databases have been install in the default directory, this is not required. Otherwise specify the path

  -t THREADS, --threads THREADS

                        Number of threads for mmseqs and hhsuite. Defaults to 1.

  -f, --force           Overwrites the output directory

  -p PREFIX, --prefix PREFIX

                        Prefix for output files. This is not required

  -V, --version         show program's version number and exit

 

 

データベースの準備

PHROGsのデータベースをインストールする。

python bin/install_databases.py -d Y
  • -d   Must be "Y" or "N". Determines whether you want databases stored in the default location, or in a custom directory
  • -o   Database Directory - will be created and must be specificed in conjunction with -d N

databasess/

 

実行方法

fastaファイルを指定する。出力を指定しない場合はoutput/に書き込まれる。8スレッド指定。

pharokka.py -i input.fasta -o outdir -t 8
  • -i     nput file in fasta format
  • -o    where to write the output
  • -d    database directory. If the databases have been install in the default directory, this is not required. Otherwise specify the path
  • -t    Number of threads for mmseqs and hhsuite. Defaults to 1.
  • -p    Prefix for output files. This is not required

16GBの標準的なノートパソコンで8スレッド指定した場合、ゲノムサイズにもよるが、pharokkaは5-20分かかる(Githubより)。

 

出力例

 

引用

GitHub - gbouras13/pharokka: fast phage annotation program

 

2024/01/12

Pharokka: a fast scalable bacteriophage annotation tool 
George Bouras, Roshan Nepal, Ghais Houtak, Alkis James Psaltis, Peter-John Wormald, Sarah Vreugde
Bioinformatics, Volume 39, Issue 1, January 2023

 

関連