macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

トランスポゾン検出ツール4 IS_mapper

 

Paired-endのfastqと挿入部位を見つけたいIS配列をクエリとして入力することで、ゲノムやアセンブルしたcontigからISを検出してくれるツール。バクテリア用に設計されており、macbook airなどでも高速に動作する。

論文では予測結果をPCRで確認しており、false callが非常に少ないことも主張されている。

 

 

Github

GitHub - jhawkey/IS_mapper: IS mapping software

 

 依存するもの。

  • Python v2.7.5
  • BioPython v1.63
  • BWA v0.7.5a
  • Samtools v0.1.19
  • Bedtools v2.20.1 - 
  • BLAST+ v2.2.28 

依存ツールはバージョンアップしているが、最新バージョンでも問題なく動作するようである。全てpipとbrewでインストール可(例: brew install samtools & pip install pysam)。

 

本体は

git clone https://github.com/jhawkey/IS_mapper/

 でダウンロードして、

pip install IS_mapper/

でインストールする。正常に導入されていれば、

$ ismap --version

ismap 0.1.5.1

バージョンが表示される。さらに-hをつけて以下のコマンド(赤字部分)をランすると

$ compiled_table.py -h

usage: compiled_table.py [-h] --tables TABLES [TABLES ...] --reference_gbk

                         REFERENCE_GBK --seq SEQ [--gap GAP]

                         [--cds CDS [CDS ...]] [--trna TRNA [TRNA ...]]

                         [--rrna RRNA [RRNA ...]] --output OUTPUT

 

Create a table of IS hits in all isolates for ISMapper

 

optional arguments:

  -h, --help            show this help message and exit

  --tables TABLES [TABLES ...]

                        tables to compile

  --reference_gbk REFERENCE_GBK

                        gbk file of reference to report closest genes

  --seq SEQ             fasta file for insertion sequence looking for in

                        reference

  --gap GAP             distance between regions to call overlapping

  --cds CDS [CDS ...]   qualifiers to look for in reference genbank for CDS

                        features

  --trna TRNA [TRNA ...]

                        qualifiers to look for in reference genbank for tRNA

                        features

  --rrna RRNA [RRNA ...]

                        qualifiers to look for in reference genbank for rRNA

                        features

  --output OUTPUT       name of output file

 ヘルプが表示されるはず。

 

オーサーらが準備したテストデータをダウンロードする。

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR225/ERR225612/ERR225612_*.fastq.gz

Githubにテストデータのリファレンス (S_suis_P17.gbk) とIS配列 (ISSsu3.fasta) もアップされている。それもダウンロードする。

 

中身を確認する。

$ cat ISSsu3.fasta

>ISSsu3

TAGTTAAATGAAACAAAAACAGTACATTTATGATATAATGTATTTATGGCATATTCATTA

GATTTTCGTAAAAAAGTTCTCGCATACTGTGAGAAAACCGGCCGTATTACTGAAGCATCA

GCTATTTTCCAAGTTTCACGTAACACTATCTATCAATGGCTAAAATTAAAAGAGAAAACC

GGCGAGCTTCATCACCAAGTTAAAGGAACCAAGCCAAGAAAAGTGGATAGAGATAAATTA

AAGAATTATCTTGAAACTCATCCAGATGCTTATTTGACTGAAATAGCTTCTGAATTTGAC

TGTCATCCAACAGCTATTCATTACGCCCTCAAAGCTATGGGATATACTCGAAAAAAAAGA

GCTGTACCTACTATGAACAAGACCCTGAAAAAGTAGAACTGTTCCTTAAAGAATTGAATA

ACTTAAGCCACTTGACTCCTGTTTATATTGACGAGACAGGGTTTGAGACATGTTTTCATC

GAGAATATGGTCGCTCTTTGAAAGGTCAGTTGATAAAAGGTAAGGTCTCTGGAAGAAGAT

ACCAGCGGATATCTTTAGTGGCAGGTCTCATAAATGGTGCGCTTATAGCCCCGATGACAT

ACAAAGATACTATGACGAGTGGCTTTTTCGAAGCTTGGTTCAAAATATTCTTACTACCCA

CTTTAGGTAAACCATCTGTTATCATCATGGACAATGCAAAGTTTCATAGGATGAGTAAGC

TAAAAGATTTATGCGAGGAGCAGGGACATAGACTTTTACCACTTCCTCCTTACTCACCGG

AATATAATCCCATTGAGAAAATATGGGCTCACATCAAAAAACACCTCAGAAGAGTATTGC

CAAATTGCGATACTTTTCTTGAGGCACTTTCGTCCTGCTCTTGTTTCAGTTGACTA

 

$ head -40 S_suis_P17.gbk

LOCUS       AM946016             2007491 bp    DNA     circular BCT 14-JUL-2009

DEFINITION  Streptococcus suis P1/7 complete genome.

ACCESSION   AM946016

VERSION     AM946016.1  GI:251819067

DBLINK      BioProject: PRJNA352

KEYWORDS    complete genome.

SOURCE      Streptococcus suis P1/7

  ORGANISM  Streptococcus suis P1/7

            Bacteria; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae;

            Streptococcus.

REFERENCE   1

  AUTHORS   Holden,M.T., Hauser,H., Sanders,M., Ngo,T.H., Cherevach,I.,

            Cronin,A., Goodhead,I., Mungall,K., Quail,M.A., Price,C.,

            Rabbinowitsch,E., Sharp,S., Croucher,N.J., Chieu,T.B., Mai,N.T.,

            Diep,T.S., Chinh,N.T., Kehoe,M., Leigh,J.A., Ward,P.N.,

            Dowson,C.G., Whatmore,A.M., Chanter,N., Iversen,P., Gottschalk,M.,

            Slater,J.D., Smith,H.E., Spratt,B.G., Xu,J., Ye,C., Bentley,S.,

            Barrell,B.G., Schultsz,C., Maskell,D.J. and Parkhill,J.

  TITLE     Rapid evolution of virulence and drug resistance in the emerging

            zoonotic pathogen Streptococcus suis

  JOURNAL   PLoS ONE 4 (7), E6072 (2009)

   PUBMED   19603075

  REMARK    Publication Status: Online-Only

REFERENCE   2  (bases 1 to 2007491)

  AUTHORS   Holden,M.T.G.

  TITLE     Direct Submission

  JOURNAL   Submitted (10-MAR-2008) Holden M.T.G., Pathogen Genomics, Sanger

            Institute Wellcome Trust, Wellcome Trust Genome Campus, Hinxton,

            Cambridge, CB10 1SA, UNITED KINGDOM

FEATURES             Location/Qualifiers

     source          1..2007491

                     /organism="Streptococcus suis P1/7"

                     /mol_type="genomic DNA"

                     /strain="P1/7"

                     /db_xref="taxon:218494"

     gene            1..1374

                     /gene="dnaA"

                     /locus_tag="SSU0001"

                     /gene_synonym="dnaH"

     CDS             1..1374

普通のgenebankフォーマットの配列である。

 

準備ができたらランする。

ismap --reads ERR225612_*.fastq.gz --queries ISSsu3.fasta --typingRef S_suis_P17.gbk --log --runtype typing --output S_suis

--reads   Paired end reads for analysing (can be gzipped)

--queries  Multifasta file for query gene(s) (eg: insertion sequence) that will be mapped to.

--typingRef Reference genome for typing against in genbank format

--type     Indicator for contig assembly type, genbank or fasta (default fasta)

--extension Extension for assemblies (eg: .fasta, .fa, .gbk,

--cutoff   Minimum depth for mapped region to be kept in bed file (default 6)

--runtype  "typing" or "improvement"

 

 

テストデータの出力

f:id:kazumaxneo:20170703113539j:plain

gbkファイルを入力すると、このようにIS挿入位置の遺伝子をコールしてくれる。

 

  • ISのクエリ配列は--readsを何度も書くことで複数入力できる。
  • リファレンスはfastaかマルチfasta、またはgenebank形式に対応している。テストデータではgenebank形式のリファレンスを用意している。
  • paired-endシーケンスデータはfastqの非圧縮、またはgzip圧縮に対応している。ただし名前はテストのようにペアとわかる構造の名前でなくてはならない。
  • アセンブルしたcontigや、それにアノテーションをかけgbkにしたファイルを使ってもよい。

 

本手法はゲノムにない新規の挿入でも、配列がわかれば挿入位置を拾ってくれる。バクテリアのゲノムだとランニングタイムも数分で快適に使える。トランスタギングしたような株からIS挿入位置を探したいならまずこのツールを試し、それからペアードエンドデータから手動で探す方法と比較してみるとよいと思われる。

 

* 他の手法と同様に、日本語のフォルダパスの下の方にあると動作しないので気をつける。一度エラーになりました。samtoolsは度々仕様が変わりますが、1.4.1でも動作します。

 

引用

ISMapper: identifying transposase insertion sites in bacterial genomes from short read sequence data

Elizabeth Hénaff, Luís Zapata, Josep M. CasacubertaEmail author and Stephan Ossowski

DOI: 10.1186/s12864-015-1860-2© Hawkey et al. 2015 Received: 9 March 2015Accepted: 18 August 2015