macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ナノポアのrawロングリードからプラスミドを同定する tiptoft

 

 急速にコストが下がる中、Pacific Biosciences(PacBio)およびOxford Nanopore Technologies(ONT)のロングリードDNAシークエンシング技術がアウトブレイク調査に使用され始めている(Faria et al、2017; J. Quick et al、2005 2015)および急速な感染症の臨床診断(Votintseva et al、2017)。 ONT機器は数分以内にデータを作成でき、PacBioは数時間/数日かかるショートリードシーケンシング技術と比較して数時間以内にデータを作成できる。実用的な答えまでの時間を短縮することによって、ゲノミクスは臨床決定に直接影響を与え始め、患者に良い影響を与える可能性がある(Gardy&Loman、2017)。抗菌薬耐性を付与するものまたは病原性因子をコードするもののような臨床的に重要な遺伝子は、プラスミドから水平に獲得され得る。ロングリードシーケンシング技術によって得られる速度の増加と共に、ベースエラー率が増加している。ロングリードシーケンシングリードに固有の高いエラー率は、リードを修正するための特別なツールを必要とする(Koren et al、2017)が、これらの方法はかなりの計算上の要求を必要とする。シークエンシングデータ、および臨床的に重要な小さいプラスミドの損失をもたらす可能性がある。
 基礎となるrawデータにどのプラスミドが存在するかを予測するために生の未補正リードを使用するTipToftを紹介する。これは、デノボアセンブリのプラスミド含有量を検証するための独立した方法を提供する。TipToftは、未修正のロングリードから実行できる唯一のツールである。 TipToftは速く、リアルタイムで結果を提供するためにストリーミング入力データを受け入れることもできる。プラスミドは、PlasmidFinderからのタイピングに使用されたレプリコン配列を使用して同定される(Carattoli et al、2014)。著者らは、PacBioのロングリードシークエンシング技術を使用して1975サンプル(https://www.sanger.ac.uk/resources/downloads/bacteria/nctc /)でソフトウェアをテストし、abricate(紹介)を使用してde novoアセンブリからプラスミドを予測した。1975サンプルから、プラスミド配列と100%一致するが、de novoアセンブリ内には対応するプラスミドが存在しない84サンプルが同定された。アセンブリにおいて同定されたすべてのプラスミドを100%の一致条件でとると、Tiptoftはこれらのうち97%(n = 326)を同定した。デプスがより深まるとプラスミド配列を正確に同定する能力が高まるであろう。そのレベルは基本エラー率に依存する。 90%の塩基精度を有するシーケンシングデータについては、99.5%の信頼度でプラスミドレプリコン配列を同定するために、おおよそ5のデプスが必要とされる。このソフトウェアはPython 3で書かれており、https://github.com/andrewjpage/tiptoftからオープンソースGNU GPLv3ライセンスの下で入手可能できる。

 

tiptoftに関するツイート

 

インストール

著者が配布しているdockerイメージを使いテストした(ホストOS: mac os)。

本体 GIthub

#dockcerイメージを使うならpullする
docker pull andrewjpage/tiptoft

#インストールする場合pipが利用できる
pip3 install cython
pip3 install tiptoft

#Anaconda環境なら
conda install -y -c bioconda tiptoft

#homebrewも利用できる
brew install python # this is python v3
pip3 install cython
pip3 install tiptoft

tiptoft -h

# tiptoft -h

usage: tiptoft [options] input.fastq

 

Plasmid replicon and incompatibility group prediction from uncorrected long

reads

 

positional arguments:

  input_fastq           Input FASTQ file (optionally gzipped)

 

optional arguments:

  -h, --help            show this help message and exit

 

Optional input arguments:

  --plasmid_data PLASMID_DATA, -d PLASMID_DATA

                        FASTA file containing plasmid data from downloader

                        script, defaults to bundled database (default: None)

  --kmer KMER, -k KMER  k-mer size (default: 13)

 

Optional output arguments:

  --filtered_reads_file FILTERED_READS_FILE, -f FILTERED_READS_FILE

                        Filename to save matching reads to (default: None)

  --output_file OUTPUT_FILE, -o OUTPUT_FILE

                        Output file [STDOUT] (default: None)

  --print_interval PRINT_INTERVAL, -p PRINT_INTERVAL

                        Print results every this number of reads (default:

                        None)

  --verbose, -v         Turn on debugging [False]

  --version             show program's version number and exit

 

Optional advanced input arguments:

  --no_hc_compression   Turn off homoploymer compression of k-mers (default:

                        False)

  --no_gene_filter      Dont filter out lower coverage genes from same group

                        (default: False)

  --max_gap MAX_GAP     Maximum gap for blocks to be contigous, measured in

                        multiples of the k-mer size (default: 3)

  --max_kmer_count MAX_KMER_COUNT

                        Exclude k-mers which occur more than this number of

                        times in a sequence (default: 10)

  --margin MARGIN       Flanking region around a block to use for mapping

                        (default: 10)

  --min_block_size MIN_BLOCK_SIZE

                        Minimum block size in bases (default: 50)

  --min_fasta_hits MIN_FASTA_HITS, -m MIN_FASTA_HITS

                        Minimum No. of kmers matching a read (default: 8)

  --min_perc_coverage MIN_PERC_COVERAGE, -c MIN_PERC_COVERAGE

                        Minimum percentage coverage of typing sequence to

                        report (default: 85)

  --min_kmers_for_onex_pass MIN_KMERS_FOR_ONEX_PASS

                        Minimum No. of kmers matching a read in 1st pass

                        (default: 5)

root@84830ec770b4:/data# 

 

 

実行方法

1、最初にデータベースを準備する。PlasmidFinder(ref.1)のデータベースを使っている。

#ホストのカレントとシェアしてRUNする
docker run -itv $PWD:/data/ andrewjpage/tiptoft
> apt update && apt install -y curl #curlが入ってないので入れる
> cd /data

#データベースダウンロード
> tiptoft_database_downloader plasmid_data

plasmid_data.faができる。

 

2、tiptoftの実行。データベースとpacbioまたはn anopreのfastqを指定する。fastqはgzip圧縮にも対応している。

tiptoft long_reads.fq  --plasmid_data plasmid_data.fa

 テストランの出力

GENE COMPLETENESS %COVERAGE ACCESSION DATABASE PRODUCT

rep11.1 Full 100 AB178871 plasmidfinder rep11.1_repA(pB82)_AB178871

rep17.1 Partial 86 AF507977 plasmidfinder rep17.1_CDS29(pRUM)_AF507977

repUS15. Partial 92 NZAAAK010000287 plasmidfinder repUS15._ORF(E.faecium287)_NZAAAK010000287

 

 

引用

TipToft: detecting plasmids contained in uncorrected long read sequencing data

Andrew J. Page, Torsten Seemann 

Journal of Open Source Software, 4(35), 1021

 

ref.1

In silico detection and typing of plasmids using PlasmidFinder and plasmid multilocus sequence typing.

Carattoli A, Zankari E, García-Fernández A, Voldby Larsen M, Lund O, Villa L, Møller Aarestrup F, Hasman H.

Antimicrob Agents Chemother. 2014 Jul;58(7):3895-903. doi: 10.1128/AAC.02412-14. Epub 2014 Apr 28