macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Snipe

 

 食中毒は、開発途上国開発途上国の両方において、世界の食品の安全性と公衆衛生を脅かす顕著な脅威となっている。毎年、病原体に汚染された食品は、米国で約4,800万人の人に病気を引き起こし、12万8,000人が入院し、3,000人が死亡している(www. producedafetyproject.org)。生鮮食品や加工食品の汚染による390億ドルを含め、経済的負担の総額は年間1,520億ドルを超える可能性がある。世界的に見ても、人口の4分の1近くが今日では食中毒のリスクが高い。
 一般的に、食中毒は、病原体またはその毒素で汚染された生または調理不足の食品の消費に関連付けられている。食中毒に関連した臨床的な意思決定において、診断の遅れは、しばしば治療の遅れや不適切な抗生物質の使用につながる。大規模な食中毒発生時には、特定の病原体の検出が遅れれば、地域社会を通じた疾病の発生と蔓延が増加し、死亡率が上昇する可能性がある。したがって、食品媒介性病原体を迅速かつ正確に特定する能力は、食品供給の安全性を確保し、食品媒介性疾患が公衆衛生に及ぼす影響を最小限に抑えるために不可欠である。
従来、日常的な臨床診断や食中毒菌の検出には、微生物を寒天培地で培養した後、メッキ法、生物発光法、フローサイトメトリー、DEFT、インピーダンス免疫測定法などを用いた標準的な生化学的同定を行う培養法が用いられてきた。これらの方法は、時間と手間がかかることが知られている。培養法では、初期同定に2~3日、培養試料中の病原体の確認に1週間以上を要する。さらに、培養法を用いた病原体の検出が成功するかどうかは、培養液中での微生物の増殖能力に依存するため、生菌はあっても培養不能な細胞が存在する場合には偽陰性が生じる可能性があり、培養法の感度は限られている。このような理由から、従来の培養ベースの方法では、迅速な食品検査の要求を満たすには不十分であるとの認識が高まっており、より正確に、より迅速に、より低コストで食中毒の発生源を特定できる方法の開発に多大な努力が払われてきている。
(一部略)
 次世代シークエンシング(NGS)技術の進歩とその低コスト化に伴い、ショットガンメタゲノミクスシークエンシングは微生物プロファイリングの究極のツールとして急速に採用されてきている(ref.8,9) 。食品や環境試料から直接採取した遺伝物質を対象にゲノムシークエンシングを行うことで、どのような病原体が存在し、それらが食品試料やその周辺環境にどのような影響を与えているかを十分に理解するための必須のツールとなり、これまでにないスピード、感度、解像度で病原体の検出結果を提供できる可能性を秘めている。
 ハイスループットメタゲノムシークエンシング技術のユニークな利点にもかかわらず、これらの新しいデータを用いて迅速な種の同定や株の特定を行うことは、シークエンシングマシンから生成される大量のデータのために大きな課題となっている。さらに、同一種内の分類学的多様性や異なる種間のゲノム類似性が問題をさらに複雑にしている。メタゲノムNGSデータのデータ処理の課題に取り組むために、数多くのメタゲノムアルゴリズムが開発されてきた。その中でも、Kraken、KrakenUniq、Seed-Kraken、CLARK、One Codexなどのk-merベースのアルゴリズムが提案されており、これらのアルゴリズムは、高速かつ正確な分類学的分類を行うために、メタゲノムデータのk-merと幅広い生物クレードのk-merを比較するものである。また、k-mer以外にも、MetaPhlAn2やAMPHORA2のようなクレード特異的なマーカー遺伝子に基づいたアルゴリズムが開発されており、これらのマーカー遺伝子との系統的距離から分類学的分類が推測されている。最後に、MEGAN、Kaiju、PathoScopeおよびSigmaを含む、リードマッピングに基づくアプローチは、既知のリファレンスゲノムのデータベースに対してメタゲノムのリードをアラインさせることにより、サンプルの分類学的構成を推測する。メタゲノムサンプル中の同種の近縁種の株間の正確な識別を提供するために、これらのアプローチでは、データベース内に複数の関連するサブストレインが存在するため複数のゲノムにアラインメントすることができた場合、メタゲノムリードを最も可能性の高い起源ゲノムに割り当てるための統計モデルが一般的に関与している。メタゲノムデータ処理アルゴリズムの進歩にもかかわらず、低存在量の標的病原性微生物の高速検出へのメタゲノムシークエンシングの応用にはまだまだ改善の余地があり、優性種と非優性種の株間のゲノム類似性に起因する誤検出は既存のアルゴリズムにとって大きな課題となっている。本論文では、汚染された食品サンプルから一般的な病原体を高感度に検出する方法であるSnipe (SeNsItive Pathogen dEtection)を紹介する。本アプローチは、特定の種のゲノムにのみ存在するユニークなゲノムセグメントである種特異的領域(SSR)の概念に基づいている(ref.21)。この方法では、まず、関心のある病原体のゲノムを含む小規模なリファレンスデータベースにマッピングすることで、菌株レベルでの病原体の豊富さを推定する。その後、生のメタゲノムリードをさらに対象の病原体のSSRのパネルにアラインメントし、それぞれのSSRにアラインメントされたリード数に基づいて、特定の株が試験サンプルに存在するかどうかの事後的確率を計算する。そして、推定されたアバンダンスは、この事後確率に基づいて統計的に補正される。このようにして、サンプル中に存在しない菌株に誤ってアラインメントされたリードに起因する偽陽性が強く抑制され、低アバンダンスでの病原体検出性能の向上につながる。

 病原体スパイクインを伴うシミュレーションおよび実世界のメタゲノムデータを用いて、PathoScope、Kraken、Sigmaと本アプローチの性能を比較した。著者らのソリューションは、種と株の両方のレベルで、あらかじめ設定された偽ディスカバリー率(FDR)の下で、目標とする病原体に対する感度の点で他の方法よりも優れていた。重要なことは、提案されたSSRベースのアバンダンス補正法では、本アプローチは0.01%以下の相対アバンダンスで標的病原体を検出することができるのに対し、他の全ての手法はこのアバンダンスレベルでは失敗するということである。このアプローチの初期バージョン は、食品医薬品局食品安全・応用栄養管理センター(FDA CFSAN)が主催する precisionFDA CFSAN Pathogen Detection Chal-lenge に参加した際に使用されたものである。この課題の目的は、天然およびin silicoで汚染されたサンプル中の低頻度のサルモネラ菌を同定し、種類を決定することである。本アプローチは、菌株同定のパフォーマンスでリードし、この課題の 8 つの評価試験のうち 7 つの試験で最高得点を獲得した(https://precision.fda.gov/challenges/2/view/results)。

 

 インストール

#依存
conda create -n snipe python=3.6 -y
conda activate snipe
conda install -c bioconda bowtie2 pysam pandas

git clone https://github.com/xmuyulab/Snipe.git
cd Snipe/snipe/

>  python snipe.py -h

$ python snipe.py -h

usage: snipe.py [-h] [--version] {map,id,rec} ...

 

snipe

 

positional arguments:

  {map,id,rec}  Select one of the following sub-commands

    map         snipe MAP Module

    id          snipe ID Module

    rec         snipe rec Module

 

optional arguments:

  -h, --help    show this help message and exit

  --version     show program's version number and exit

 

 

 

実行方法

データベースとリードを指定する。

python snipe.py map -1 read_1 -2 read_2 -targetRefFiles path1 -filterRefFiles path2 -o path3 -
outAlign name1 -tag name2 -indexDir path4 -t 1

 

引用

Snipe: Highly sensitive pathogen detection from metage- nomic sequencing data
Lihong Huang, Bin Hong, Wenxian Yang, Liansheng Wang, Rongshan Yu

bioRxiv, May 6, 2020