macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

抗生物質耐性遺伝子を検出する KmerResistance

 

 抗生物質は、ヒトおよび家畜の両方で世界中で広く使用されており、疾患の治療または急速な成長を保証している。長年にわたり、これは抗生物質耐性菌の出現、選抜および普及のための好ましい条件を作り出してきた(ref.1)。

 バクテリアの耐性プロファイルを迅速かつ確実に決定することはサーベイランス(wiki)にとって重要であり、臨床的処置を導くためにも重要である。近年、次世代シーケンシング(NGS)技術は安価で迅速かつ正確になり、サーベイランスや迅速な臨床診断に日常的に利用されている(ref.2)。一つの懸念は、NGSが表現型感受性を予測する能力である。研究により、予測された感受性と測定された感受性が非常に高い一致を示すことが明らかにされている(ref.2)。

 WGSデータの遺伝子を同定するために、いくつかの異なる方法が開発されているが、どの方法が最適であるかについての合意はない。これらの方法は、参照データベースと比較する前にrawシーケンスリードからのコンティグのアセンブリすること、またはシーケンスリードをリファレンス配列に直接マッピングすること、の大きく2つのグループに分けることができる。Zankariら3)は、WGSデータから抗菌剤耐性を検出する第1のアプローチの1つを開発した。この方法は、WGSをアセンブリし、BLASTを用いて耐性遺伝子を同定することに基づいている。このアプローチの1つのリスクは、2つ以上のコンティグに分割された場合、遺伝子の同定が見落とされる可能性があることである。これは、データとアセンブリのクオリティが低い場合に発生する可能性がある。

 Inouyeら4)は、Bowtie2(ref.5)を用いてraw WGSデータを抵抗性遺伝子に直接マップして感度を上げ、それによってパフォーマンスを向上させるアプローチを提案した(ref.4 pubmed)。しかし、raw WGSデータを直接マッピングするアプローチでは、汚染物質などのWGSデータのノイズによる誤検出増加などの問題が発生する。

 感度を維持し、偽陽性率を低く抑えるために、ここでは新しいアプローチを提示する。 k-mers(長さkのDNA配列の断片)を使用して、raw WGSデータをリファレンスデータベースに対してマッピングし、耐性遺伝子を同定するだけでなく種を決定する。次いで、種のリファレンスゲノムに対しマッピングして、抗菌剤耐性予測を正規化する。

この新しいアプローチ(KmerResistance)と、SRST2およびResFinderを、ヒト(n = 143)およびブタ(n = 196)の合計339の細菌分離株の標準的な表現型感受性試験で比較した(これにはEscherichia coli、Salmonella Typhimurium、Enterococcus faecalisおよびEnterococcus faeciumおよび27種の抗生物質が含まれる)。

3つのツールについて

  • ResFinderは、シーケンスデータをアセンブリした配列と耐性遺伝子とのblast検索により耐性遺伝子を同定する。
  • SRST2はBowtie2を使いシーケンスデータをユーザー指定のデータベース(例えば耐性遺伝子)に対して直接マッピングして耐性遺伝子を同定する。いくつかの配列は高い類似性を共有するため、SRST2は、CD-hitを80%の同一性閾値で使い、クラスタ化する。 これにより、各クラスター/遺伝子の最もよく一致する対立遺伝子のみが報告されることが保証される。SRST2の方法は、同定された遺伝子のSNPs解析などさらなる分析も可能なものである。ResFinderと比較してSRST2はより感受性が高く、シーケンスエラーやシーケンスキャリーオーバーなどのコンタミネーションの可能性を考慮する必要がある。そのため、論文中では、SRST2を最小デプス5の閾値設定下でテストしている。
  • KmerResistanceは、raw WGSデータからバクテリアタイピングを実行するKmerFinder(10,11)上に構築された。 KmerFinderおよびKmerResistanceは、クエリーゲノムと耐性遺伝子データベースとの間に共存するk-merの数を調べる。正確な一致のみが報告され、これは、カバレッジおよびアイデンティティが同じ(つまりカバレッジ)として報告されることを意味する。データベース内の遺伝子間で同一のk-mersに起因する複数のヒットを避けるために、各k-merは、最初に、k-mer適合数が最も高い遺伝子にのみアサインされる。この後、最良のヒットにマッピングされたk-mersが取り除かれ、残りのリードで手順が繰り返される。その性質から「winner takes all strategy」と命名した。抗生物質耐性遺伝子の同定に加えて、KmerFinderと同じスキームに従って種の予測を行い、その結果を出力することもできる。

 

ラン

使い方

https://cge.cbs.dtu.dk/services/KmerResistance/instructions.php

webサーバー

シングルエンド、ペアエンドのfastqをアップロードする。

f:id:kazumaxneo:20180702201222p:plain

出力について

https://cge.cbs.dtu.dk/services/KmerResistance/output.php

 

O-157のNGSデータでテストした時の結果。サブサンプリングしてx10ほどにカバレッジを減らしているがうまく検出できている。

f:id:kazumaxneo:20180703094433p:plain

species results、抗生物質耐性遺伝子検索結果などがダウンロードできる。 

 

 

Center for Genomic Epidemiologyのサーバーはたくさんのツールがあり、常にジョブが走っているのかBusyなことが多いです。余裕を持って使ってください。

 

引用

Benchmarking of methods for identification of antimicrobial resistance genes in bacterial whole genome data

Clausen PT, Zankari E, Aarestrup FM, Lund O.

J Antimicrob Chemother. 2016 Sep;71(9):2484-8.