シーケンシングデータからヒトの病原性細菌かどうかを判定するwebツール PathogenFinder

2019 2/21タイトル修正

2019 2/24 コメント追記

　毎年1500万人を超える人が感染症の直接の原因で死亡している。その多くは細菌感染によるものである。毎年推定１３０万人が結核で死亡し、２００万人が百日咳を発症しているが、下痢は２５０万人以上の死亡の原因となっており、世界中で主要な死因の１つである［ref.1］。しかし、すべてのバクテリアが危険であるわけではなく、それらの多くは無害であるか、あるいは人間にとっても有益である。健康な成人の腸には何千もの異なる微生物種が含まれており、それらの多くは宿主にとって有益であり、栄養と発達のための機能を提供し、そして免疫反応を調節している[ref. 2, 3]。それにもかかわらず、Escherichia coliのようないくつかの細菌種はまた、例えば下痢、尿路感染症、敗血症などを引き起こす極めて致命的な株も含む。（一部略）

　1880年代以降、ヒトの病原体に対して動物モデルを使い、細菌の病原性がコッホの仮説を使って評価されてきた。過去20年間で、コッホの仮説は与えられた細菌が病原性であるかどうかを決定するのに十分ではないことを多くの発見が示している。純粋な培地では増殖できない細菌によって引き起こされる疾患の存在[ref. 4, 5]、polymicrobialな疾患の発見[ref.6]、慢性疾患におけるメタゲノム微生物叢の役割[ref.7]、そして最後に重要なことだが（病原性にかかわらず）細菌間の遺伝物質の交換を担う遺伝子水平伝播（HGT）の発見[ref.8]は、仮説に欠点があるすべての事例である。 Vibrio choleraeの共同作業中にRobert Koch自身が、人間特有の病原体を正しく同定するための動物モデルの欠点を発見した。したがって、動物モデルの使用は、所与の細菌がヒトの病原性であるかどうかを定義する上で必ずしも信頼できるとは限らない。さらに、動物モデルまたは疫学的研究によって病原性を評価することは、時間がかかりかつ費用がかかる。

　細菌が宿主内で感染し生存するために必要な分子的特徴の中には、外毒素、内毒素、二成分系[ref.10]、付着因子、分泌系（IからIV型）[ref.11]、それらの宿主細胞への毒素[ref.12]がある。プラスミド、分泌系、および抗生物質耐性遺伝子は共生および病原性株の両方に一般的に存在し、一方、毒素は通常は病原性株にのみ存在する。病原性と関連する毒素およびビルレンス因子をコードする遺伝子と、病原性と関連する他の遺伝子を含む多くのデータベースがある[ref.13, 14]。

　バイオインフォマティクスを使用して細菌をヒト病原性として分類する方法の1つは、調査中の分離株のゲノムでこれらの特徴のいくつかを探すことであった（そして今もなおそうである）。不幸なことに、このアプローチは必ずしも信頼できるわけではない。これは、HGTが原因で、これらの特徴が病原性の株と無害な株間で交換されることで引き起こされる。交換はこれらの特徴が大量に見つかるノムアイランドによって証明されてきた[ref.17]。病原性に直接関連する特徴の他に、細菌が宿主の内部で生き残りその免疫系応答を回避するために重要なvirulence “lifestyle” 遺伝子もある[ref.18, 19]。病原性を直接決定しないとしても、病因の過程で重要である他の遺伝子を活性化する。（一部略）

　全ゲノムシーケンシング発展は、細菌種における病原性を予測する新規な方法を開く可能性がある。 1995年には、Mycoplasma genitaliumおよびHaemophilus influenzaeのゲノム[ref.20, 21]が完全にシーケンシングされ、科学者たちはそれらのゲノム配列に基づいて細菌の病因を研究する可能性を検討し始めた[ref.22]。これは、第二世代または次世代シーケンシング（NGS）の出現により過去10年間継続してきた革命の始まりであり、シーケンシングコストの継続的な削減とシーケンシング技術の迅速な開発をもたらした。現在、多くの異なるハイスループットシークエンシングシステムが利用可能であり[ref.23-25]、国際ヌクレオチド配列データベース共同研究（INSDC）に提出された1,800を超えるものを含む、完全にシークエンシングされた細菌の数は約2,400に達する(www.genomesonline.org, May 2013)。

　Support Vector Machines（SVM）、BLAST、または他のバイオインフォマティクスツールを利用して病原性の特徴を検索する[ref.26, 27]、または事前計算された遺伝子データベースを検索することによって細菌の病原性を予測する[ref.28]データベースがいくつかある。これらの方法の間で共有される１つの局面は、これらが検索をよく知られた病原性特徴に制限されていることであり、未知の機能を有する多くの遺伝子に含まれ得る情報を見逃している。さらに、この方法は、非病原性生物の間で共有され特異的であり得る遺伝子を無視する。細菌がHGTによって病原性になると、それらの生活様式が変化し、遺伝子の中には新しい生活様式に順応するために不活性化されたり失われたりするものもある[ref.29, 30]。これらの遺伝子は依然として非病原性細菌に存在しており、したがって病原性に関連する遺伝子と一緒に危険な細菌を無害な細菌から分離するために使用することができ得る。

　上記の予測方法に代わるものとして、著者らは以前の研究を基にして新しいアプローチを開発した[ref.31]。本研究では、ヒト病原性細菌または無害な細菌のいずれかに頻繁に見られる遺伝子群を選択し、これが類似性よりも効果的であることを示した。我々（著者ら）はこのトレーニングセットに含まれる遺伝子について何の仮定もしていないので、病原性に関連する新しいタンパク質と非病原性細菌の間で共有される特徴も同定することができる。（一部略）

予測器は、PathogenFinderと呼ばれる無料で使用できるWebサービスとして実装されている。PathogenFinderには、さまざまなNGSシーケンスプラットフォームから取得した rawリード、およびアセンブリされた配列をアップロードし、細菌の病原性の可能性を迅速に推定できる。

manual

https://cge.cbs.dtu.dk/services/PathogenFinder/instructions.php

PathogenFinderに関するツイート

使い方

https://cge.cbs.dtu.dk/services/PathogenFinder/ にアクセスする。