メタゲノムを分類し、結果を可視化する Taxonomer

　微生物集団のゲノム解析であるMetagenomicsは、環境と人体の微生物群集のプロファイリングを、これまでにない深みと幅で可能にする。その急速に拡大している用途は、自然環境や人工環境における微生物多様性の理解に革命をもたらしており、微生物の地域プロファイルを健康や病気と結びつけている[論文より rf.1-9]。今日まで、大部分の研究は、大規模なキュレーションされたデータベースが確立されている微生物マーカー遺伝子（例えば、バクテリア16Sリボソーム RNA [rRNA]）のPCR増幅に依存してきた[ref.10-12]。より最近では、より高いスループットおよびより低いコストの配列決定技術が、濃縮に依存しないメタゲノミクスへのシフトを可能にしている。これらの手法はバイアスを減らし、豊かでない分類群の検出を改善し、新規病原体の発見を可能にする[ref.13-15]。さらに、この手法は感染症の診断方法に革命をもたらすことを約束している。

　微生物培養の分子生物学的な試験への置き換えにより、感染症診断はますます病原体特異的検査に依存している。より敏感ではあるが、それらは病因の先験的知識を必要とする（すなわち、「病原体Xが存在する」という質問に答える）。いくつかの一般的な症候群（例えば、肺炎、敗血症、脳炎）では、多くの異なる病原体が臨床的に区別できない症状を引き起こす可能性がある。したがって、一般的な病原体の検出にはますます大きくなるが本質的に限定された診断パネルが必要であり、第一選択検査が陰性である場合には広範な追跡検査が必要となることがある。対照的に、エンリッチメントに依存しない次世代シークエンシング（NGS）は、理論的に無制限の仮説のないサンプルのバイアスのない検出および分子タイピングを可能にする（すなわち、「どの病原体が存在するか」という質問に答える）。偏在していないNGSベースの病原体の検出は、過去に認識されていない感染の診断と選択された症例における新規病原体の発見につながった（例えば[ref.16]を参照）。潜在的な病原体検出のため統合されたアプローチは、診断収量を増加させ、予期せぬ病原体の発生時間を短縮し、標的治療を改善し、公衆衛生緊急事態への迅速な対応を助ける。

　特定の原因病原体を同定することができない場合であっても、細菌感染とウイルスを区別できれば、抗生物質治療が必要かどうかを示すことができる。この分野は、これまで白血球応答、タンパク質マーカー（例えば、プロカルシトニン）、または血液白血球からのマイクロアレイベースの宿主のトランスクリプトプロファイリング評価（ref.17-19）によって試みられてきた。 RNAシークエンシング（RNA-seq）のより高い感受性と偏りのない性質は、病原体の同時検出と宿主発現応答のプロファイリングを可能にし、理論的には治療方法をよりよく知ることができ、現在のアプローチの多くの限界を潜在的に克服する可能性がある[ref.20,21]。

　NGSはまた、より包括的な微生物プロファイリング研究を可能にする。例えば、粘膜および皮膚の微生物叢のdysbiosis（用語）は、代謝性疾患、免疫性疾患、心血管疾患および腫瘍性疾患に関連している[ref. 5,22-26]。しかしながら、今日、ほとんどのミクロバイオーム研究は、依然としてマーカー遺伝子（例えばバクテリア16S rRNA）のPCR増幅に依拠している。このアプローチは、バイアスを導入し、マーカー遺伝子が存在しない関連ウイルスおよびファージフローラの影響を無視し（ref.27-29）、宿主応答の差異を評価することができない。これはすべて、感染症の結果に影響を与え、ヒト微生物群集を調節することが知られている。

　NGS機器の幅広い入手可能性、試薬コストの削減、サンプル調製プロトコルの合理化により、メタゲノミクス研究のための高スループットのDNAおよびRNA-seqの研究者が益々増加している。残念なことに、ハイスループットメタゲノミクスによって生成される大きなデータセットの解析には、バイオインフォマティクススキル、計算資源、およびほとんどのラボラトリ、特に診断に欠けている微生物学的専門知識の組み合わせが必要となる。したがって、包括的な診断およびメタゲノミクス解析のために、計算上より効率的で、正確で、使い易いツールが必要とされる。

　Taxonomerは、超高速、ユーザーフレンドリーなウェブベースのメタゲノム配列解析ツールである。このツールは、（1）包括的なバクテリアの検出および発見; （2）宿主メッセンジャー RNA（mRNA）応答プロファイリング; （3）インタラクティブな結果の可視化; （4）Webベースのユーザーインターフェイスを介してアクセスするため、特殊なハードウェアや専門知識が不要、という特徴をもつ。これらのアプリケーションは、Binner、Classifier、Protonomer、およびAfterburner（図1a）の4つの統合ツールに基づいたモジュラー設計により実現されている（詳細はMethod参照）。Taxonomerは、DNAおよび/またはRNAシーケンスデータならびにメタゲノミクスデータセットからアセンブリされたコンティグの分析に使用することができる。 Taxonomerは、Taxonomerの機能のほんの一部を提供する最速のツールであるKraken [ref.30]（約4百万リード/分）とCLARK [ref.31]（約3200万リード/分）に匹敵する速度で動作する。 KrakenおよびClarkとは異なり、Taxonomerは、同様の機能性を有するアライメントベースのツール（例えば、SURPI [ref.32]によって使用されるもの）よりも10-100倍高速で、非常に多様なウイルス配列の検出のための統合されたヌクレオチドおよびタンパク質ベースの分類をサポートする。

ワークフロー。４つの段階からなる。論文図１Aより転載。

Taxonomer webサービスにアクセスする。使用するにはSign upが必要になる。Sign up for freeから登録する。

パスワードを設定するとログインできるようになる。

ログイン後の画面。

f:id:kazumaxneo:20180531164013j:plain

Example dataを解析してみる。赤いロゴをクリックする。

３種類のデータセットが用意されている。エボラウィリスを選択した（This is RNA-Seq data of a serum sample from a patient in Sierra Leone, West Africa, who tested positive for Ebolavirus by PCR (1.61E+09 copies/ml). See the publication）。

f:id:kazumaxneo:20180531164101j:plain

選択すると、時間とともにリードが読み込まれていき、リアルタイムで解析結果が更新されていく。

f:id:kazumaxneo:20180531164221j:plain

最終的に17万リードがロードされ、11万リードが分類された。

f:id:kazumaxneo:20180531164630j:plain

パイチャートのvirus部分（紫）をクリック。

クリック部分が展開され、より下位の階級の分類結果が表示される。

f:id:kazumaxneo:20180531165652j:plain

クリックすると、さらに下位の階級が表示される。

f:id:kazumaxneo:20180531165809j:plain

戻るには中央付近をクリックする。

自身のデータを分類、可視化するにはfastqをアップロードする。

f:id:kazumaxneo:20180531165926j:plain

右上のレポートから、現在表示されている円グラフと詳細な表ファイル（excel形式）をダウンロードできる。

f:id:kazumaxneo:20180531171205j:plain

sheet2には表が付属する。

f:id:kazumaxneo:20180531171201j:plain

不明な点は、上のヘルプから確認してください。

引用

Taxonomer: an interactive metagenomics analysis portal for universal pathogen detection and host mRNA expression profiling

Flygare S, Simmon K, Miller C, Qiao Y, Kennedy B, Di Sera T, Graf EH, Tardif KD, Kapusta A, Rynearson S, Stockmann C, Queen K, Tong S, Voelkerding KV, Blaschke A, Byington CL, Jain S, Pavia A, Ampofo K, Eilbeck K, Marth G, Yandell M, Schlaberg R.

Genome Biol. 2016 May 26;17(1):111.