macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

シークエンシングされた単離ゲノムサンプルを分析する nullarbor

 

 公衆衛生微生物学のラボでは、アウトブレイクが疑われる細菌は、通常、IlluminaまたはIon Torrent装置で、全ゲノムシークエンシングされる。これらのWGSサンプルは、カバレッジコンタミネーション、正しい種が含まれているかどうかを品質チェックする必要がある。ジェノタイピング(例:MLST)とresistome(wiki)の特徴付けも必要である。最後に、系統樹を作成し、株間の関係とゲノム距離を示す必要がある。これらの情報はすべて、疫学情報(各サンプルのメタデータ)と組み合わされ、状況を評価し、さらなる行動につなげることができる。

 

インストール

本体 Github

conda create -n nullarbor -y 
conda activate nullarbor
conda install -c conda-forge -c bioconda -c defaults -y nullarbor

>nullarbor.pl  --check 

$ nullarbor.pl 

NAME

  nullarbor.pl 2.0.20191013

SYNOPSIS

  Reads to reports for public health microbiology

AUTHOR

  Torsten Seemann

USAGE

  nullarbor.pl [options] --name NAME --ref REF.FA/GBK --input INPUT.TAB --outdir DIR

REQUIRED

  --name STR             Job name

  --ref FILE             Reference file in FASTA or GBK format

  --input FILE           Input TSV file with format:  | Isolate_ID | R1.fq.gz | R2.fq.gz |

  --outdir DIR           Output folder

  --mode MODE            Run mode: [all] preview

OPTIONS

  --cpus INT             Maximum number of CPUs to use in total (56)

  --force                Overwrite --outdir (useful for adding samples to existing analysis)

  --quiet                No screen output

  --verbose              More screen output

  --version              Print version and exit

  --check                Check dependencies and exit

  --run                  Immediately launch Makefile

ADVANCED OPTIONS

  --conf FILE            Config file (/home/kazu/anaconda3/envs/nullarbor/bin/../conf/nullarbor.conf)

  --gcode INT            Genetic code for prokka (11)

  --trim                 Trim reads of adaptors (0)

  --mlst SCHEME          Force this MLST scheme (AUTO)

  --minctg LEN_BP        Minimum contig length for Prokka and Roary

  --prefill              Use precomputed data as per --conf file. Use --no-prefill to override.

  --link-cmd 'CMD'       Command to symlink/copy FASTQ files into --outdir ('ln -s -f')

  --snippy_opt STR       Options to pass to snippy eg. '--mincov 10 --ram 32' ()

  --roary_opt STR        Options to pass to roary eg. '-iv 1.75 -s -cd 97' ()

  --mask BED | auto      Mask core SNPS in these regions or 'auto' ()

  --auto                 Be lazy and guess --name,--ref,--input,--outdir,--mask

PLUGINS

  --assembler NAME       Assembler to use: megahit shovill skesa skesa_fast spades (skesa)

  --assembler-opt STR    Extra assembler options to pass ()

  --treebuilder NAME     Tree-builder to use: fasttree iqtree iqtree_fast iqtree_slow (iqtree_fast)

  --treebuilder-opt STR  Extra tree-builder options to pass ()

  --taxoner NAME         Species ID tool to use: centrifuge kraken kraken2 (kraken)

  --taxoner-opt STR      Extra species ID builder options to pass ()

  --annotator NAME       Genome annotator to use: prokka_fast (prokka_fast)

  --annotator-opt STR    Extra annotator options to pass ()

DOCUMENTATION

  https://github.com/tseemann/nullarbor

(nullarbor) kazu@kazu:~$ 

 

shovillのエラーが出るが、インストールされていれば問題ない。

#インストールチェック

>nullarbor.pl  --check

f:id:kazumaxneo:20200828225046p:plain


 

データベース

kraken、kraken2、Centrifugeのデータベースを使用する。いずれもビルド済みのデータベースが公開されているので、それをダウンロードすればそのまま使える。

#Kraken
wget https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_4GB.tgz
tar -C $HOME -zxvf minikraken_20171019_4GB.tgz

wget https://ccb.jhu.edu/software/kraken/dl/minikraken_20171019_8GB.tgz
tar -C $HOME -zxvf minikraken_20171019_8GB.tgz

#Kraken2
wget ftp://ftp.ccb.jhu.edu/pub/data/kraken2_dbs/minikraken2_v2_8GB_201904_UPDATE.tgz
tar -C $HOME -zxvf minikraken2_v2_8GB_201904_UPDATE.tgz

#Centrifuge
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/centrifuge/data/p_compressed+h+v.tar.gz
mkdir $HOME/centrifuge-db
tar -C $HOME/centrifuge-db -zxvf p_compressed+h+v.tar.gz

#データベースのパスを設定(必要に応じて.bashrcなどに書き込んでおく)
export KRAKEN_DEFAULT_DB=$HOME/minikraken_20171019_8GB
export KRAKEN2_DEFAULT_DB=$HOME/minikraken2_v2_8GB_201904_UPDATE
export CENTRIFUGE_DEFAULT_DB=$HOME/centrifuge-db/p_compressed+h+v

 

 

実行方法 

 ランにはイルミナのペアエンドシークエンシングデータが必要。シングルエンドのデータは使用できない。 

リファレンス(fastaファイルかgenbankファイル)とペアエンドfastqのタブファイルを指定する。ランには最低4サンプルのfastqが必要。

nullarbor.pl --name PROJNAME --mlst saureus --ref US300.fna --input samples.tab --outdir OUTDIR

 

 

引用

 

Seemann T, Goncalves da Silva A, Bulach DM, Schultz MB, Kwong JC, Howden BP. Nullarbor Github https://github.com/tseemann/nullarbor