macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

臨床環境の病原性バクテリアを素早くジェノタイピングする biohansel

 

 BioHanselは、全ゲノムシーケンス(WGS)データで系統学的に有益な1塩基多型(SNP)(canonical SNPsとも呼ばれる)を識別することにより、細菌分離株の高解像度のジェノタイピングを実行する。このアプリケーションは、高速k-merマッチングアルゴリズムを使用して、病原体WGSデータを階層構造のスキーマに含まれるcanonical SNPsマッピングし、検出されたSNPプロファイルに基づいて遺伝子型を割り当てる。適度なコンピューティングリソースを使用して、BioHanselは生のシーケンスリードまたはアセンブルされたコンティグから分離株を数秒で効率的にタイプし、監視、診断にWGS手法を適用したい公衆衛生、食品安全、環境、農業当局、および研究プログラムによる使用を魅力的にする。 BioHanselは現在、4つの一般的なサルモネラ血清型(Typhi、Typhimurium、Enteritidis、およびHeidelberg)の標準SNPジェノタイピングスキーマと、Mycobacterium tuberculosisスキーマを提供している。ユーザーは、他の生物のジェノタイピング用に独自のスキーマを提供することもできる。 BioHanselの品質保証システムは、ジェノタイピング結果の妥当性を評価し、低品質のデータ、汚染されたデータセット、および誤認された生物を特定できる。 BioHanselは、製品のリコールなどの公衆衛生を目的としたサーベイランス、ソース属性、リスク評価、診断、および迅速なスクリーニングをサポートすることを目的としている。 BioHanselは、PyPI、Conda、およびGalaxyワークフローマネージャーで利用可能なパッケージを備えたオープンソースアプリケーションである。要約すると、BioHanselは、標準的なコンピューティングハードウェアでシーケンシングリードまたはアセンブルされたコンティグから、細菌ゲノムの効率的、迅速、正確、高解像度の分類を実行する。 BioHanselは、感染症の監視、診断、アウトブレイクの調査と対応の最前線で、一般的な研究ツールとしてだけでなく、完全に運用可能なWGSワークフローでの使用にも適している。 BioHanselユーザーガイドは、https://bio-hansel.readthedocs.io/en/readthedocs/から入手できる。補足資料はhttps://github.com/phac-nml/biohansel-manuscript-supplementary-dataから入手できる。

 

 

 

Documentation

https://bio-hansel.readthedocs.io/en/readthedocs/user-docs/usage.html

 

インストール

mac os10.14のanaconda環境でテストした。

biohansel has been confirmed to work on Mac OSX (versions 10.13.5 Beta and 10.12.6) when installed with Conda.

依存

Python (>=v3.6)

本体 Github


#bioconda (link)
conda create -n biohansel -y
conda activate
biohansel
conda install -c bioconda -y bio_hansel

#pip
pip install bio_hansel
#latest master branch version directly from Github
pip install git+https://github.com/phac-nml/biohansel.git@master

> hansel -h

$  hansel -h

usage: hansel [-h] [-s SCHEME] [--scheme-name SCHEME_NAME] [-M SCHEME_METADATA] [-p forward_reads reverse_reads] [-i fasta_path genome_name] [-D INPUT_DIRECTORY] [-o OUTPUT_SUMMARY] [-O OUTPUT_KMER_RESULTS]

              [-S OUTPUT_SIMPLE_SUMMARY] [--force] [--json] [--min-kmer-freq MIN_KMER_FREQ] [--max-kmer-freq MAX_KMER_FREQ] [--low-cov-depth-freq LOW_COV_DEPTH_FREQ] [--max-missing-kmers MAX_MISSING_KMERS]

              [--min-ambiguous-kmers MIN_AMBIGUOUS_KMERS] [--low-cov-warning LOW_COV_WARNING] [--max-intermediate-kmers MAX_INTERMEDIATE_KMERS] [--max-degenerate-kmers MAX_DEGENERATE_KMERS] [-t THREADS] [-v] [-V]

              [F [F ...]]

 

Subtype microbial genomes using SNV targeting k-mer subtyping schemes.

Includes schemes for Salmonella enterica spp. enterica serovar Heidelberg, Enteritidis, Typhi, and Typhimurium subtyping. Also includes a Mycobacterium tuberculosis scheme called 'tb_lineage'. 

Developed by Geneviève Labbé, Peter Kruczkiewicz, Philip Mabon, James Robertson, Justin Schonfeld, Daniel Kein, Marisa A. Rankin, Matthew Gopez, Darian Hole, David Son, Natalie Knox, Chad R. Laing, Kyrylo Bessonov, Eduardo Taboada, Catherine Yoshida, Roger P. Johnson, Gary Van Domselaar and John H.E. Nash.

 

positional arguments:

  F                     Input genome FASTA/FASTQ files (can be Gzipped)

 

optional arguments:

  -h, --help            show this help message and exit

  -s SCHEME, --scheme SCHEME

                        Scheme to use for subtyping (built-in: "heidelberg", "enteritidis", "typhi", "typhimurium", "tb_lineage"; OR user-specified: /path/to/user/scheme)

  --scheme-name SCHEME_NAME

                        Custom user-specified SNP substyping scheme name

  -M SCHEME_METADATA, --scheme-metadata SCHEME_METADATA

                        Scheme subtype metadata table (tab-delimited file with ".tsv" or ".tab" extension or CSV with ".csv" extension format accepted; MUST contain column called "subtype")

  -p forward_reads reverse_reads, --paired-reads forward_reads reverse_reads

                        FASTQ paired-end reads

  -i fasta_path genome_name, --input-fasta-genome-name fasta_path genome_name

                        input fasta file path AND genome name

  -D INPUT_DIRECTORY, --input-directory INPUT_DIRECTORY

                        directory of input fasta files (.fasta|.fa|.fna) or FASTQ files (paired FASTQ should have same basename with "_\d\.(fastq|fq)" postfix to be automatically paired) (files can be Gzipped)

  -o OUTPUT_SUMMARY, --output-summary OUTPUT_SUMMARY

                        Subtyping summary output path (tab-delimited)

  -O OUTPUT_KMER_RESULTS, --output-kmer-results OUTPUT_KMER_RESULTS

                        Subtyping kmer matching output path (tab-delimited)

  -S OUTPUT_SIMPLE_SUMMARY, --output-simple-summary OUTPUT_SIMPLE_SUMMARY

                        Subtyping simple summary output path

  --force               Force existing output files to be overwritten

  --json                Output JSON representation of output files

  --min-kmer-freq MIN_KMER_FREQ

                        Min k-mer freq/coverage

  --max-kmer-freq MAX_KMER_FREQ

                        Max k-mer freq/coverage

  --low-cov-depth-freq LOW_COV_DEPTH_FREQ

                        Frequencies below this coverage are considered low coverage

  --max-missing-kmers MAX_MISSING_KMERS

                        Decimal proportion of maximum allowable missing kmers before being considered an error. (0.0 - 1.0)

  --min-ambiguous-kmers MIN_AMBIGUOUS_KMERS

                        Minimum number of missing kmers to be considered an ambiguous result

  --low-cov-warning LOW_COV_WARNING

                        Overall kmer coverage below this value will trigger a low coverage warning

  --max-intermediate-kmers MAX_INTERMEDIATE_KMERS

                        Decimal proportion of maximum allowable missing kmers to be considered an intermediate subtype. (0.0 - 1.0)

  --max-degenerate-kmers MAX_DEGENERATE_KMERS

                        Maximum number of scheme k-mers allowed before quitting with a usage warning. Default is 100000

  -t THREADS, --threads THREADS

                        Number of parallel threads to run analysis (default=1)

  -v, --verbose         Logging verbosity level (-v == show warnings; -vvv == show debug info)

  -V, --version         show program's version number and exit

 

 

実行方法

 fastqを指定する。

hansel -s heidelberg -t 8 -o results.tab -O match_results.tab -p SRR5646583_forward.fastqsanger SRR5646583_reverse.fastqsanger
  • -s     Scheme to use for subtyping (built-in: "heidelberg", "enteritidis", "typhi", "typhimurium", "tb_lineage"; OR user-specified: /path/to/user/scheme)
  • -v, --verbose         Logging verbosity level (-v == show warnings; -vvv == show debug info)
  •  -t    Number of parallel threads to run analysis (default=1)
  • -p    forward_reads reverse_reads

match_results.tab

f:id:kazumaxneo:20200318223919p:plain

match_results.tab

f:id:kazumaxneo:20200318224006p:plain

 

ディレクトリの全fastqを分析する。

hansel -s heidelberg -vv --threads <n_cpu> -o results.tab -O match_results.tab -D /path/to/fastqs/

  

引用

Rapid and accurate SNP genotyping of clonal bacterial pathogens with BioHansel

Geneviève Labbé, James Robertson, Peter Kruczkiewicz, Marisa Rankin, Matthew Gopez, Chad R. Laing, Philip Mabon, Kim Ziebell, Aleisha R. Reimer, Lorelee Tschetter, Gary Van Domselaar, Sadjia Bekal, Kimberley A. MacDonald, Linda Hoang, Linda Chui, Danielle Daignault, Durda Slavic, Frank Pollari, E. Jane Parmley, Elissa Giang, Lok Kan Lee, Jonathan Moffat, Joanne MacKinnon, Roger Johnson, John H.E. Nash. [Manuscript in preparation]

bioRxiv, Posted January 11, 2020