臨床環境の病原性バクテリアを素早くジェノタイピングする biohansel

　BioHanselは、全ゲノムシーケンス（WGS）データで系統学的に有益な１塩基多型（SNP）（canonical SNPsとも呼ばれる）を識別することにより、細菌分離株の高解像度のジェノタイピングを実行する。このアプリケーションは、高速k-merマッチングアルゴリズムを使用して、病原体WGSデータを階層構造のスキーマに含まれるcanonical SNPsにマッピングし、検出されたSNPプロファイルに基づいて遺伝子型を割り当てる。適度なコンピューティングリソースを使用して、BioHanselは生のシーケンスリードまたはアセンブルされたコンティグから分離株を数秒で効率的にタイプし、監視、診断にWGS手法を適用したい公衆衛生、食品安全、環境、農業当局、および研究プログラムによる使用を魅力的にする。 BioHanselは現在、4つの一般的なサルモネラ血清型（Typhi、Typhimurium、Enteritidis、およびHeidelberg）の標準SNPジェノタイピングスキーマと、Mycobacterium tuberculosisのスキーマを提供している。ユーザーは、他の生物のジェノタイピング用に独自のスキーマを提供することもできる。 BioHanselの品質保証システムは、ジェノタイピング結果の妥当性を評価し、低品質のデータ、汚染されたデータセット、および誤認された生物を特定できる。 BioHanselは、製品のリコールなどの公衆衛生を目的としたサーベイランス、ソース属性、リスク評価、診断、および迅速なスクリーニングをサポートすることを目的としている。 BioHanselは、PyPI、Conda、およびGalaxyワークフローマネージャーで利用可能なパッケージを備えたオープンソースアプリケーションである。要約すると、BioHanselは、標準的なコンピューティングハードウェアでシーケンシングリードまたはアセンブルされたコンティグから、細菌ゲノムの効率的、迅速、正確、高解像度の分類を実行する。 BioHanselは、感染症の監視、診断、アウトブレイクの調査と対応の最前線で、一般的な研究ツールとしてだけでなく、完全に運用可能なWGSワークフローでの使用にも適している。　BioHanselユーザーガイドは、https://bio-hansel.readthedocs.io/en/readthedocs/から入手できる。補足資料はhttps://github.com/phac-nml/biohansel-manuscript-supplementary-dataから入手できる。

BioHansel is available on GitHub and can be installed via Conda, PyPI or GitHub.

BioHansel is also available on Galaxy. https://t.co/tLXUT7XQ0K
— Daniel Kein 🇨🇦 (@danielkein) 2020年1月12日

Documentation

https://bio-hansel.readthedocs.io/en/readthedocs/user-docs/usage.html

インストール

mac os10.14のanaconda環境でテストした。

biohansel has been confirmed to work on Mac OSX (versions 10.13.5 Beta and 10.12.6) when installed with Conda.

依存

Python (>=v3.6)

numpy >=1.12.1
pandas >=0.20.1
pyahocorasick >=1.1.6
attrs

本体　Github

#bioconda (link)
conda create -n biohansel -y
conda activate biohansel
conda install -c bioconda -y bio_hansel

#pip
pip install bio_hansel
#latest master branch version directly from Github
pip install git+https://github.com/phac-nml/biohansel.git@master

> hansel -h

$ hansel -h

usage: hansel [-h] [-s SCHEME] [--scheme-name SCHEME_NAME] [-M SCHEME_METADATA] [-p forward_reads reverse_reads] [-i fasta_path genome_name] [-D INPUT_DIRECTORY] [-o OUTPUT_SUMMARY] [-O OUTPUT_KMER_RESULTS]

[-S OUTPUT_SIMPLE_SUMMARY] [--force] [--json] [--min-kmer-freq MIN_KMER_FREQ] [--max-kmer-freq MAX_KMER_FREQ] [--low-cov-depth-freq LOW_COV_DEPTH_FREQ] [--max-missing-kmers MAX_MISSING_KMERS]

[--min-ambiguous-kmers MIN_AMBIGUOUS_KMERS] [--low-cov-warning LOW_COV_WARNING] [--max-intermediate-kmers MAX_INTERMEDIATE_KMERS] [--max-degenerate-kmers MAX_DEGENERATE_KMERS] [-t THREADS] [-v] [-V]

[F [F ...]]

Subtype microbial genomes using SNV targeting k-mer subtyping schemes.

Includes schemes for Salmonella enterica spp. enterica serovar Heidelberg, Enteritidis, Typhi, and Typhimurium subtyping. Also includes a Mycobacterium tuberculosis scheme called 'tb_lineage'.

Developed by Geneviève Labbé, Peter Kruczkiewicz, Philip Mabon, James Robertson, Justin Schonfeld, Daniel Kein, Marisa A. Rankin, Matthew Gopez, Darian Hole, David Son, Natalie Knox, Chad R. Laing, Kyrylo Bessonov, Eduardo Taboada, Catherine Yoshida, Roger P. Johnson, Gary Van Domselaar and John H.E. Nash.

positional arguments:

F Input genome FASTA/FASTQ files (can be Gzipped)

optional arguments:

-h, --help show this help message and exit

-s SCHEME, --scheme SCHEME

Scheme to use for subtyping (built-in: "heidelberg", "enteritidis", "typhi", "typhimurium", "tb_lineage"; OR user-specified: /path/to/user/scheme)

--scheme-name SCHEME_NAME

Custom user-specified SNP substyping scheme name

-M SCHEME_METADATA, --scheme-metadata SCHEME_METADATA

Scheme subtype metadata table (tab-delimited file with ".tsv" or ".tab" extension or CSV with ".csv" extension format accepted; MUST contain column called "subtype")

-p forward_reads reverse_reads, --paired-reads forward_reads reverse_reads

FASTQ paired-end reads

-i fasta_path genome_name, --input-fasta-genome-name fasta_path genome_name

input fasta file path AND genome name

-D INPUT_DIRECTORY, --input-directory INPUT_DIRECTORY

directory of input fasta files (.fasta|.fa|.fna) or FASTQ files (paired FASTQ should have same basename with "_\d\.(fastq|fq)" postfix to be automatically paired) (files can be Gzipped)

-o OUTPUT_SUMMARY, --output-summary OUTPUT_SUMMARY

Subtyping summary output path (tab-delimited)

-O OUTPUT_KMER_RESULTS, --output-kmer-results OUTPUT_KMER_RESULTS

Subtyping kmer matching output path (tab-delimited)

-S OUTPUT_SIMPLE_SUMMARY, --output-simple-summary OUTPUT_SIMPLE_SUMMARY

Subtyping simple summary output path

--force Force existing output files to be overwritten

--json Output JSON representation of output files

--min-kmer-freq MIN_KMER_FREQ

Min k-mer freq/coverage

--max-kmer-freq MAX_KMER_FREQ

Max k-mer freq/coverage

--low-cov-depth-freq LOW_COV_DEPTH_FREQ

Frequencies below this coverage are considered low coverage

--max-missing-kmers MAX_MISSING_KMERS

Decimal proportion of maximum allowable missing kmers before being considered an error. (0.0 - 1.0)

--min-ambiguous-kmers MIN_AMBIGUOUS_KMERS

Minimum number of missing kmers to be considered an ambiguous result

--low-cov-warning LOW_COV_WARNING

Overall kmer coverage below this value will trigger a low coverage warning

--max-intermediate-kmers MAX_INTERMEDIATE_KMERS

Decimal proportion of maximum allowable missing kmers to be considered an intermediate subtype. (0.0 - 1.0)

--max-degenerate-kmers MAX_DEGENERATE_KMERS

Maximum number of scheme k-mers allowed before quitting with a usage warning. Default is 100000

-t THREADS, --threads THREADS

Number of parallel threads to run analysis (default=1)

-v, --verbose Logging verbosity level (-v == show warnings; -vvv == show debug info)

-V, --version show program's version number and exit

実行方法

fastqを指定する。

hansel -s heidelberg -t 8 -o results.tab -O match_results.tab -p SRR5646583_forward.fastqsanger SRR5646583_reverse.fastqsanger

-s Scheme to use for subtyping (built-in: "heidelberg", "enteritidis", "typhi", "typhimurium", "tb_lineage"; OR user-specified: /path/to/user/scheme)
-v, --verbose Logging verbosity level (-v == show warnings; -vvv == show debug info)
-t Number of parallel threads to run analysis (default=1)
-p forward_reads reverse_reads

match_results.tab

f:id:kazumaxneo:20200318223919p:plain

match_results.tab

f:id:kazumaxneo:20200318224006p:plain

ディレクトリの全fastqを分析する。

hansel -s heidelberg -vv --threads <n_cpu> -o results.tab -O match_results.tab -D /path/to/fastqs/

引用

Rapid and accurate SNP genotyping of clonal bacterial pathogens with BioHansel

Geneviève Labbé, James Robertson, Peter Kruczkiewicz, Marisa Rankin, Matthew Gopez, Chad R. Laing, Philip Mabon, Kim Ziebell, Aleisha R. Reimer, Lorelee Tschetter, Gary Van Domselaar, Sadjia Bekal, Kimberley A. MacDonald, Linda Hoang, Linda Chui, Danielle Daignault, Durda Slavic, Frank Pollari, E. Jane Parmley, Elissa Giang, Lok Kan Lee, Jonathan Moffat, Joanne MacKinnon, Roger Johnson, John H.E. Nash. [Manuscript in preparation]

bioRxiv, Posted January 11, 2020