複数データベースを統合した包括的な薬剤耐性遺伝子データベース ARGminer

2019 5/4 タイトル修正

　薬剤耐性（AMR）は、世界保健機関（WHO）によって世界規模の主要な健康上の脅威として認識されている。 AMRは2050年までに指数関数的に増加し、実質的なヒトの罹患率と死亡率をかなり増やすと予測されている。したがって、モニタリングを強化してAMRの拡散に取り組むためには、迅速な行動が必要である。これには以下のものが含まれる。環境源および経路を介して抗生物質耐性遺伝子（ARG）の蔓延を制御するメカニズムを理解する。診療所で問題となる前に新しいARGを発見し、ARGアノテーションの新しい計算戦略を開発し、現在のARGリポジトリを拡張する。
　メタゲノムシーケンシングは、様々な環境の多様なARG、すなわち「resistomes」にアクセスする強力な手段を提供して新しいARGの発見とその相互作用をサポートしている。既存のメタゲノムアプローチは、配列類似性計算を通して抗生物質耐性属性を予測する方法に大きく依存しており、これは大きな制限を受ける。第一に、そのような類似性計算は、一貫した正確なARG識別を可能にする高品質で最新のARGリファレンス／アノテーションデータベースを必要とする。第二に、そのような分析の範囲は、シーケンスアラインメントにおいて使用されるパラメータカットオフの厳密さまたはアラインメントのための包括的な標的遺伝子の欠如のために、以前に特徴付けられたARGに限定される。

　所与のサンプル中に存在する全範囲のARGを広く正確に検出するためのメタゲノムベースのアプローチの能力を向上させるには、対応するデータベースのキュレーションを継続的に拡張し向上させることが必要である。しかしながら、偽陽性、すなわち、必ずしもAMR表現型を誘発しないARG様遺伝子を組み込むリスクは、拡大されたキュレーション努力に対する大きな障害となっている。したがって、手動による検査と潜在的なARGエントリの検証は、AMRデータベースとそのアプリケーションの有効性を保証するための重要な側面である。
　ARGの手動キュレーションは、一般に、公共データベースの維持管理に取り組む研究グループに関連する少数の専門家によって行われる。このプロセスは複雑で面倒で時間がかかる。例えば、抗生物質耐性データベース（ARDB）の最後の更新は2009年に行われ、したがって、bla NDM-1やmcrのような新しく発見されたARGは含まれていない。 ARGアノテーションの構成を簡素化するために設計されたMEGAResデータベースは、2016年12月から更新されていない。Mobile Genetic elements (MGEs)を介して伝達された証拠がある遺伝子を含むresquデータベースは、2013年以降更新されていない。包括的な抗生物質耐性データベースCARDは、最新のARGリソースであると広く考えられている。 2016年に最初に導入されたCARDは、2018年10月の最新リリース以来、合計21回更新されており、ARG配列およびメタデータ（例えば、抗生物質クラス、遺伝子名、およびメカニズム）に対応する変更が加えられている。これは、その分野の専門家であっても、ARGデータベースのキュレーションがいかに複雑で時間がかかるかを示している。
　命名法の矛盾や一塩基多型、ハウスキーピング遺伝子の排除などの現在利用可能なデータベースの制限に対処するため、強力なstructured antibiotic resistance database (SARG)などの試みがなされている。本著者ら自身の研究グループでは、以前にディープラーニングを使用してARGを予測するための計算アプローチDeepARGを導入した。機械学習モデルとともに、DeepARG-DBという名前のキュレーションデータベースもリリースした。このデータベースは、手動キュレーション、ARGの文献レビュー、およびシーケンスアラインメントを用いたARGのアノテーションを採用している。 DeepARG-DBは、2017年7月に最初にリリースされ、2018年8月に最後に更新された。しかし、deepARGデータベースは複数のリソースからのアノテーションに依存しているため、他のデータベースからのエラーの伝播に敏感である。これは、新しいARGを簡単に統合したり、現在のARGのアノテーションを検証したりするために、さまざまなリソースからすべてのARG情報を取り込むことができる特別なツールを有効にする必要性を強調している。

　膨大な数のARGのキュレーションおよび手動検証における困難を克服するために、この複雑なタスクをより単純でより小型のマイクロタスクに分解する新規なアプローチが提案されている。この方法論の核心は、AMRリソースの大要を集約すること、および非専門家、すなわち一般大衆およびドメイン専門家が集合的にARGデータベースのキュレーションを実行できるようにARG情報を単純化するクラウドソーシング戦略を展開することからなる。生物学におけるクラウドソーシングの適用、特にデータキュレーションのための適用は、新しいものではなく、患者のオンライン投稿からの医学的に関連するtermの特定、PubMedで説明されている疾患へのアノテーション、データベースおよび体系的な薬物適応症の調査、生物医学オントロジー、および遺伝子 - 疾患相互作用、など様々な分野を含む。興味深いことに、ほとんどの研究で、クラウドソーシングはエキスパートキュレーションと同じくらい効果的であることが証明されている。
　すべてのARGリソースを網羅する大きな問題は、標準化された遺伝子命名法の欠如である。特に、ARGの命名は細菌遺伝子の命名の一般的な命名法には従っていない。例えば、マクロライド耐性遺伝子は、クラスが括弧で示されるように構造化されている (e.g.,ole(B),srm(B),vga(B)orere(B))。テトラサイクリン遺伝子と比較すると、この遺伝子命名法は根本的に異なる。なぜなら、テトラサイクリン遺伝子では、決定基が遺伝子名の後に大文字として置かれているからである (e.g., tetA, tetB, tetC) 。同時に、それらの命名法は、ベータラクタマーゼ遺伝子にアノテーションをつけるために提案された遺伝子規約とは異なる。（一部略）したがって、ARGの命名規則および命名規則の多様性とバリエーションは、一貫性のあるARGキュレーションを複雑にし、大きく妨げる。

　ここではARGの手動キュレーションを強化するオンラインプラットフォームであるARGminerを紹介する。 ARGminerを使用すると、CARD、DeepARG-DB、ARDB、MEGARes、UniProt、NDARO、SARG、ResFinder、およびARGANNOTなど、いくつかのARGリソースから入手可能なすべての情報を整理および取得できる。手動のクラウドソースベースのキュレーションは、検証を助け、一貫性を達成するために自然言語処理（NLP）で広く使用されている技術であるword embeddingsに基づく機械学習モデルによって強化されている。一方、プラスミドファージやウイルスのようなMGEは、ARGの普及に重要な役割を果たしている。したがって、ARGminerはまた、それぞれ病原体またはMGEによるARGの潜在的な伝播についての情報を提供するPATRICおよびACLAMEデータベースともインターフェースする。 ARGminerプラットフォームは、AMRの拡大と闘うことに貢献するという共通の欲求に動機付けられた研究者と市民の幅広いコミュニティによるARGアノテーション標準化のための協調的かつ統合的なアプローチを促進するオープンソースプロジェクトとして設計、構築、実装されている。 ARGminerには、サイエンスコミュニティがARGデータベースの最新の更新と開発に積極的に取り組んでいくことを目的として、ユーザーが質問を投稿したり、薬剤耐性に関する解決策や議論を共有したりするためのコミュニティブログもある（補足図1を参照）。 ARGminerに関連するすべてのデータは、ソースコードと同様に、http://bench.cs.vt.edu/argminerの公開リポジトリから無料で入手できる。

Instructions

https://bench.cs.vt.edu/argminer/#/forum/selected_question;id=1541191047351

Blog

https://bench.cs.vt.edu/argminer/#/forum

Github

https://bench.cs.vt.edu/argminer/#/classify;gene_id=A0A0Q7HDK9 にアクセスする。

薬剤耐性遺伝子の検索

topから検索できる。catIと検索してみた。

f:id:kazumaxneo:20190502220556p:plain

該当するhitが表示される。

f:id:kazumaxneo:20190502220655p:plain

一番上のARDB (5) CARD (1)ヒットのchloramphenicolのcatIをクリックしてみる。

ARDBのhitはクラスchloramphenicolでSimilarity（sequence similarity）100、coverage（alignment coverage）100のcata1となっていた。

f:id:kazumaxneo:20190502220912p:plain

その下にはSuggested Gene Nomenclatureとの合致率も表示される。

f:id:kazumaxneo:20190502221829p:plain

さらに下には各データベースでの該当遺伝子の説明が記載されている。

f:id:kazumaxneo:20190502221301p:plain

その下にはアミノ酸配列も表示される。

f:id:kazumaxneo:20190502222023p:plain

さらに下にはPATRICからの、病原性バクテリアゲノムでの存在数が表示される。

f:id:kazumaxneo:20190502222050p:plain

1828 genomes contain this particular gene (P58777). From those, 894 ( 48.9% ) genomes are labeled as pathogens.

894ゲノム ( 48.9% ) 保有となっている。

一番下にはACLAMEからのMGEs（wiki）とともに存在しているエビデンスがまとめられる。

f:id:kazumaxneo:20190502222427p:plain

データベースのダウンロード

現在の最新版は2019-04-24公開のARGminer-v1.1.1となっている。

ARGminerデータベースは2つのfastaファイルとしてリリースされている。

ARGminer-vxx.A.fasta：ARGminerによって検査されたか、他のキュレーションデータベース（CARD、Resfinder、ARG-ANNOT、SARG）で報告されたARGが含まれる。
ARGminer-vxx.B.fasta：このデータベースには、UniProtによる検査が必要な可能性のあるARGを含む、ARGminerからのすべてのARGが含まれる。

多様性を考量すると、Bタイプ利用が推奨されている。

リンクを右クリックしてダウンロードする。

f:id:kazumaxneo:20190502214706p:plain

fastaがダウンロードされる。

引用

ARGminer: A web platform for crowdsourcing-based curation of antibiotic resistance genes
G. A. Arango-Argoty, G. K. P. Guron, E. Garner, M.V. Riquelme, L. S. Heath, A. Pruden, P. J. Vikesland, L. Zhang

bioRxiv preprint first posted online Mar. 1, 2018