公衆衛生微生物学のラボでは、アウトブレイクが疑われる細菌は、通常、IlluminaまたはIon Torrent装置で、全ゲノムシークエンシングされる。これらのWGSサンプルは、カバレッジ、コンタミネーション、正しい種が含まれているかどうかを品質チェックする必要がある。ジェノタイピング(例:MLST)とresistome(wiki)の特徴付けも必要である。最後に、系統樹を作成し、株間の関係とゲノム距離を示す必要がある。これらの情報はすべて、疫学情報(各サンプルのメタデータ)と組み合わされ、状況を評価し、さらなる行動につなげることができる。
インストール
本体 Github
conda create -n nullarbor -y
conda activate nullarbor
conda install -c conda-forge -c bioconda -c defaults -y nullarbor
>nullarbor.pl --check
$ nullarbor.pl
NAME
nullarbor.pl 2.0.20191013
SYNOPSIS
Reads to reports for public health microbiology
AUTHOR
Torsten Seemann
USAGE
nullarbor.pl [options] --name NAME --ref REF.FA/GBK --input INPUT.TAB --outdir DIR
REQUIRED
--name STR Job name
--ref FILE Reference file in FASTA or GBK format
--input FILE Input TSV file with format: | Isolate_ID | R1.fq.gz | R2.fq.gz |
--outdir DIR Output folder
--mode MODE Run mode: [all] preview
OPTIONS
--cpus INT Maximum number of CPUs to use in total (56)
--force Overwrite --outdir (useful for adding samples to existing analysis)
--quiet No screen output
--verbose More screen output
--version Print version and exit
--check Check dependencies and exit
--run Immediately launch Makefile
ADVANCED OPTIONS
--conf FILE Config file (/home/kazu/anaconda3/envs/nullarbor/bin/../conf/nullarbor.conf)
--gcode INT Genetic code for prokka (11)
--trim Trim reads of adaptors (0)
--mlst SCHEME Force this MLST scheme (AUTO)
--minctg LEN_BP Minimum contig length for Prokka and Roary
--prefill Use precomputed data as per --conf file. Use --no-prefill to override.
--link-cmd 'CMD' Command to symlink/copy FASTQ files into --outdir ('ln -s -f')
--snippy_opt STR Options to pass to snippy eg. '--mincov 10 --ram 32' ()
--roary_opt STR Options to pass to roary eg. '-iv 1.75 -s -cd 97' ()
--mask BED | auto Mask core SNPS in these regions or 'auto' ()
--auto Be lazy and guess --name,--ref,--input,--outdir,--mask
PLUGINS
--assembler NAME Assembler to use: megahit shovill skesa skesa_fast spades (skesa)
--assembler-opt STR Extra assembler options to pass ()
--treebuilder NAME Tree-builder to use: fasttree iqtree iqtree_fast iqtree_slow (iqtree_fast)
--treebuilder-opt STR Extra tree-builder options to pass ()
--taxoner NAME Species ID tool to use: centrifuge kraken kraken2 (kraken)
--taxoner-opt STR Extra species ID builder options to pass ()
--annotator NAME Genome annotator to use: prokka_fast (prokka_fast)
--annotator-opt STR Extra annotator options to pass ()
DOCUMENTATION
https://github.com/tseemann/nullarbor
(nullarbor) kazu@kazu:~$
shovillのエラーが出るが、インストールされていれば問題ない。
#インストールチェック
>nullarbor.pl --check
データベース
kraken、kraken2、Centrifugeのデータベースを使用する。いずれもビルド済みのデータベースが公開されているので、それをダウンロードすればそのまま使える。
#Kraken
wget https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_4GB.tgz
tar -C $HOME -zxvf minikraken_20171019_4GB.tgz
wget https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz
tar -C $HOME -zxvf minikraken_20171019_8GB.tgz
#Kraken2
wget ftp://ftp.ccb.jhu.edu/pub/data/kraken2_dbs/minikraken2_v2_8GB_201904_UPDATE.tgz
tar -C $HOME -zxvf minikraken2_v2_8GB_201904_UPDATE.tgz
#Centrifuge
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/centrifuge/data/p_compressed+h+v.tar.gz
mkdir $HOME/centrifuge-db
tar -C $HOME/centrifuge-db -zxvf p_compressed+h+v.tar.gz
#データベースのパスを設定(必要に応じて.bashrcなどに書き込んでおく)
export KRAKEN_DEFAULT_DB=$HOME/minikraken_20171019_8GB
export KRAKEN2_DEFAULT_DB=$HOME/minikraken2_v2_8GB_201904_UPDATE
export CENTRIFUGE_DEFAULT_DB=$HOME/centrifuge-db/p_compressed+h+v
実行方法
ランにはイルミナのペアエンドシークエンシングデータが必要。シングルエンドのデータは使用できない。
リファレンス(fastaファイルかgenbankファイル)とペアエンドfastqのタブファイルを指定する。ランには最低4サンプルのfastqが必要。
nullarbor.pl --name PROJNAME --mlst saureus --ref US300.fna --input samples.tab --outdir OUTDIR
引用
Seemann T, Goncalves da Silva A, Bulach DM, Schultz MB, Kwong JC, Howden BP. Nullarbor Github https://github.com/tseemann/nullarbor