macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノム配列やcontig配列からAMR遺伝子を検出する staramr

2019 7/5 コマンド修正

2019 7/8 説明の流れ修正

2019 7/14 動画追記

 

staramrはcontigやゲノムなどのDNA配列からAMR(Antimicrobial Resistance )原因(または関連)遺伝子を検出してくれるツール。ResFinderデータベースやPointFinderデータベースを検索対象にしている。

 

インストール

mac os 10.13、Anaconda 3.4.0環境でテストした。

依存

本体 Github

#condaで依存も含めて導入
conda install -c bioconda -y staramr

データベースもダウンロードされる。 

> staramr -h

> staramr -h

 

usage: staramr [-h] [--verbose] [-V] {search,db} ...

 

Do AMR detection for genes and point mutations

 

positional arguments:

  {search,db}    Subcommand for AMR detection.

    search       Search for AMR genes

    db           Download ResFinder/PointFinder databases

 

optional arguments:

  -h, --help     show this help message and exit

  --verbose      Turn on verbose logging [False].

  -V, --version  show program's version number and exit

——

データベース情報

staramr  db info

$ staramr  db info

resfinder_db_dir              = /home/kazu/anaconda3/lib/python3.6/site-packages/staramr/databases/data/dist/resfinder

resfinder_db_url              = https://bitbucket.org/genomicepidemiology/resfinder_db.git

resfinder_db_commit           = dc33e2f9ec2c420f99f77c5c33ae3faa79c999f2

resfinder_db_date             = Tue, 20 Mar 2018 16:49

pointfinder_db_dir            = /home/kazu/anaconda3/lib/python3.6/site-packages/staramr/databases/data/dist/pointfinder

pointfinder_db_url            = https://bitbucket.org/genomicepidemiology/pointfinder_db.git

pointfinder_db_commit         = ba65c4d175decdc841a0bef9f9be1c1589c0070a

pointfinder_db_date           = Fri, 06 Apr 2018 09:02

pointfinder_gene_drug_version = 050218

——

 

データベースの最新版へのアップデート。

staramr db update --update-default 

  

ラン 

1、contigの準備。

staramrはアセンブリして得たcontigのFASTAファイルを使う。NGSのデータは直接使用できないので、持ってなければ前もってアセンブリしておく。オーサーはde novoアセンブラとして、SPAdesをチューニングしたShovillなどを挙げている(紹介)。

shovill --outdir out --R1 test/R1.fq.gz --R2 test/R2.fq.gz --ram 8

 

2、staramr実行。

FASTAファイル及び出力ディレクトリを指定する。

staramr search -o staramr_output input.fa

 

解析が終わるとout/に複数のファイルができる。*.tsvファイルが分析結果のファイルで、タブ仕分けで抗生物質耐性遺伝子などの検出されたAMR遺伝子とそのアノテーションがまとめられている。それ以外にsettings.txtファイル、results.xlsxファイル(これまでの結果をシート単位で保存)、検出されたAMR遺伝子のFASTAファイルができる。詳細はGithub のマークダウン形式のREADME参照。

 

 

 

walk through

https://github.com/phac-nml/staramr/blob/development/doc/tutorial/staramr-tutorial.ipynb

データ1(リンク 137 contigs)とデータ2(リンク one chromosome & one plasmid)の配列をダウンロードし、staramrで分析してAMRを検出し、それを薬剤感受性検査の結果(表現型)と照合する実践的なチュートリアルになっている。

#配列のダウンロード
wget -O GCF_001478105.1.fasta.gz ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/001/478/105/GCF_001478105.1_Salmonella_enterica_CVM_N31384-SQ_v1.0/GCF_001478105.1_Salmonella_enterica_CVM_N31384-SQ_v1.0_genomic.fna.gz
wget -O GCF_001931595.1.fasta.gz ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/001/931/595/GCF_001931595.1_ASM193159v1/GCF_001931595.1_ASM193159v1_genomic.fna.gz

#解凍
gunzip GCF_001478105.1.fasta.gz
gunzip GCF_001931595.1.fasta.gz

#saramrでサーチ
staramr search --pointfinder-organism salmonella -o out *.fasta

#ResFinderへの全ヒット表示
cut -f 1,2,4,5,6,7 out/resfinder.tsv | column -s$'\t' -t

Isolate ID       Gene         %Identity  %Overlap  HSP Length/Total Length  Contig

GCF_001478105.1  blaCMY-2     100.00     100.00    1146/1146                ref|NZ_JYVD01000056.1|

GCF_001931595.1  aac(3)-IVa   99.87      100.00    786/786                  ref|NZ_CP016411.1|

GCF_001931595.1  aph(3')-Ia   99.39      99.75     814/816                  ref|NZ_CP016411.1|

GCF_001931595.1  aph(4)-Ia    100.00     100.00    1026/1026                ref|NZ_CP016411.1|

GCF_001931595.1  blaCTX-M-65  100.00     100.00    876/876                  ref|NZ_CP016411.1|

GCF_001931595.1  dfrA14       99.79      100.00    483/483                  ref|NZ_CP016411.1|

GCF_001931595.1  floR         98.19      99.92     1214/1215                ref|NZ_CP016411.1|

GCF_001931595.1  sul1         100.00     100.00    927/927                  ref|NZ_CP016411.1|

GCF_001931595.1  tet(A)       100.00     100.00    1200/1200                ref|NZ_CP016411.1|

 

#全point mutation表示
cut -f 1,2,5,6,7,8,10 out/pointfinder.tsv | column -s$'\t' -t

Isolate ID       Gene         Position  Mutation             %Identity  %Overlap  Contig

GCF_001931595.1  gyrA (D87Y)  87        GAC -> TAC (D -> Y)  99.43      100.00    ref|NZ_CP016410.1|

 

# Show only Predicted Phenotype
cut -f 1,3 out/summary.tsv | column -s$'\t' -t

Isolate ID       Predicted Phenotype

GCF_001478105.1  ampicillin, amoxicillin/clavulanic acid, cefoxitin, ceftriaxone

GCF_001931595.1  gentamicin, kanamycin, hygromicin, ampicillin, ceftriaxone, trimethoprim, chloramphenicol, ciprofloxacin I/R, nalidixic acid, unknown[sul1_2_CP002151], tetracycline

 

Validation

結果の妥当性を確認するため、walk throughでは最後にstaramr予測結果をNCBIのpathogen detection(リンク)のAMR geneotypes、およびNCBIの薬剤感受性検査(用語 wiki)(リンク)のAST Phenotypes と比較している。walk throughを読んで確認してください。

https://github.com/phac-nml/staramr/blob/development/doc/tutorial/staramr-tutorial.ipynb

 

 まだ開発途中とのことで、今後機能が追加されるかもしれません。

こちらも参考にしてください。

 

追記

参考動画

StaPH-B monthly webinar - May2019


引用

GitHub - phac-nml/staramr: Scans genome contigs against the ResFinder and PointFinder databases.

 

Zankari E, Hasman H, Cosentino S, Vestergaard M, Rasmussen S, Lund O, Aarestrup FM, Larsen MV. 2012. Identification of acquired antimicrobial resistance genes. J. Antimicrob. Chemother. 67:2640–2644. doi: 10.1093/jac/dks261

 

Zankari E, Allesøe R, Joensen KG, Cavaco LM, Lund O, Aarestrup F. PointFinder: a novel web tool for WGS-based detection of antimicrobial resistance associated with chromosomal point mutations in bacterial pathogens. J Antimicrob Chemother. 2017; 72(10): 2764–8. doi: 10.1093/jac/dkx217