メタゲノム分析サーバ CoMet - macでインフォマティクス

　Metagenomicsは、人間の腸[論文より ref.1,2]、土壌[ref.3]および海水表面[ref.4]を含む様々な環境における微生物の動態の培養に依存しない研究を可能にした。メタボノミクスは、直接サンプリングと微生物の遺伝物質のハイスループットショットガンシーケンシングから生成されたデータの分析を通して、異なる生息地における未培養生物の生態系を評価する上で重要なアプリケーションを提供することができる[ref.5,6,7]。

　シーケンスアセンブリとシーケンスビニングは、メタゲノミクス実験に関わる2つの重要なステップである。特定の生物に属する重複ヌクレオチド配列を同定することによって、実験で生成されたショートリードからコンティグを生成するためにアセンブリを実施する。シーケンスのビニングは、個々のゲノムまたは密接に関連するゲノムに属するヌクレオチド配列をグループに分けることである。ビニングは、シーケンスアセンブリ後の後続のステップとしてほとんどの方法で採用されている。しかし、アセンブリの複雑さを減らすために、リードを組み立てる前にビニングする可能性が示唆されている[ref.8]。

　特定の微生物群集の分類学的プロファイリングには、（1）分類学的バーコードまたは系統マーカー遺伝子の使用、および（2）ショットガンシーケンシングに基づくアプローチ[ref.9]の2つの主要なメタゲノミックアプローチがある。この研究の範囲は、ショットガンシーケンシングを使用して得られたビニングデータセットである。生物のゲノム配列に関する情報の欠如など微生物集団の複雑さのために、メタノゲノムの配列決定は困難である。さらに、大量のデータやシーケンシング/アセンブリエラーなどのデータセットの複雑さがビニングを困難な課題にしている。その結果、メタゲノム試料中の種に属するヌクレオチド配列を識別するための様々なビニング戦略が提案され、広く検討されている（[ref.10,11,12]参照）。

　既存のビニング方法は、一般に、分類法に依存する方法および分類法に依存しない方法に分類することができる。分類法に依存する方法は、データベース内の既知の配列との類似性に基づいて、または（参照配列に基づいて）監視された学習モデルを使用してbin配列を作成する（例えば、[ref.13,14,15,16]参照）。分類法に依存したビニング法は、試料中の既知の生物のプロファイルを実現するのに有用であるが、未知の種を有する微生物集団を評価するにはあまり有効ではない[ref.10]。対照的に、分類学的独立ビニング戦略は、配列中に観察される相互不一致に基づいており、既知の配列データを必要としない。

　分類法に依存しない方法は、多くの未知の生物を含むかもしれないメタゲノムの試料を分析するのに有用であることが示されている[ref.17]。したがって、特徴抽出のための統計的手法、データ視覚化のための手法、およびクラスタリングシーケンスのための教師なし学習法を利用するタクソノミーの独立した戦略がビニングに広く採用されている[ref.12]。

　既存のタクソノミー独立ビニング法は、それらで使用されている特徴に基づいて2つの異なるグループに分類することができる：シーケンス構成ベースの方法および相対的存在量に基づく方法。配列組成に基づくアプローチは、生物のヌクレオチド配列（または集合したコンティグ）から抽出された特徴を利用する。そのような2つの組成特徴は、グアニン - シトシン（GC）含量およびテトラヌクレオチド頻度である。ゲノム配列のGC含量は、様々な種について異なることが知られている。例えば、GC含量は温度最適値や許容範囲などの特性の差の原因であることが示されており、細菌集団間で観察される系統学的関係と相関している[ref.18]。同様に、ヌクレオチド頻度と呼ばれる配列のより高次の塩基組成統計値は種特異的シグネチャと見なされ、テトラヌクレオチド頻度は種を識別するために使用される[ref.17,19,20,21,22]。塩基組成における偏りの相対的大きさであるオリゴヌクレオチド頻度誘導誤差勾配（OFDEG）もまた提案され、個々のゲノム配列を分離するのに有効であることが示されている。あるいは、種（またはそのゲノムフラグメント）の相対的な存在量は、ビニングの識別特徴として使用され、リード[23,24]または配列カバレッジ情報[25]のq-mer頻度によってカプセル化される。ハイブリッドビニング戦略は、配列カバレッジと配列組成に関連する特徴[26,27,28]の両方を利用して、および/または既知の配列データ[22]に基づいて抽出された特徴と同様に、種間で見られる不一致に基づいて提案されている。

　ビニング法の性能を向上させるためには、代表的なゲノムシグネチャの同定と適切なクラスタリング法の使用が大事になる。ビニングに使用される機械学習法は広範にレビューされている[ref.29]。ビニング手法で使用されるクラスタリング手法には、凝集階層クラスタリング、k-meansクラスタリング、k-medoidsクラスタリング、モデルベースクラスタリングなどがある[ref.29,30]。しかし、パラメータの初期化とビン数の指定（k）は、いくつかの既存のビニング方法[ref.24,26]の課題を表している。いくつかのクラスタリング手法では外れ値が発生しやすいため、ビニングの精度を向上させるために堅牢な外れ値フィルタリング手法が採用されている[ref.17]。しかしながら、ロバストな外れ値フィルタリングの適用は、ビニングされるコンティグの総数を減少させる[ref.17]。

[ref.3]の前に、複数のサンプルのコンティグカバレッジに基づくビニングが提案されている。さらに、複数のメタゲノムサンプルから計算された生物の豊富さとゲノム組成に関連した特徴の使用が近年提案されているが[ref.29]、複数のサンプルデータに基づくビニング法の精度は、サンプル数が減少するにつれて減少することが示されている[ref.27]。最近のアプローチ、すなわちMyCC [ref.22]（紹介）は、ビニングの精度を向上させることが示されている。ビニングのためのゲノムシグネチャとマーカー遺伝子の使用は、MyCCワークフローで採用されており、CONCOCTやMetaBATなどの複数のメタゲノムサンプルから抽出された組成およびカバレッジフィーチャを使用して他のビニング戦略より高い精度をもたらすことが示されている[ref.20,21,22] 。ビニング戦略として、MyCCは単一のメタゲノムサンプルに対しても有効であることが示されている。しかし、複数の株のサンプルをビニングすることは、MyCCに挑戦的であることが示されている[ref.22]。

　本研究の目的は、単一のメタゲノムサンプルをビニングするためにコンティグから抽出されたコンティグカバレージと組成の両方の特徴を使い評価するワークフロー、すなわち「メタゲノムのビニング（Coverage and composition based binning）」（CoMet）を開発することであった。 CoMetは教師なし学習方法を採用しているため、コンティグをクラスタリングするために最小限のユーザ入力が必要となる。 CoMetを使用して、著者らは、ビニングにおけるノイズを伴うアプリケーション（DBSCAN）[31]の密度ベースの空間クラスタリングというクラスタリングアルゴリズムの使用を検討した。他のクラスタリング手法に比べてDBSCANの利点は、DBSCANアルゴリズムが外れ値を効率的に処理し、固定クラスタの形状を仮定せず、データから別個のグループの数を自動的に推測することである。

　さらに、アセンブリのカバレッジ値は、サンプル中の生物の相対量に直接相関していて、したがって、非常に近縁な生物を識別するために使用することができる。組成の特徴は非常に近縁な種において類似している可能性があり[ref.30]、構成的特徴のみの使用は、同様のテトラヌクレオチド頻度を有する生物由来のコンティグを有するサンプルにおいてより低い精度をもたらすことが示されている[28]。

　しかしながら、単一のメタゲノミックサンプルをビニングするための既存の方法の大部分は、コンティグカバレッジを主要な特徴として考慮しない。対照的に、コンティグカバレッジは、既存の方法[ref.20,22,32]においてテトラヌクレオチド頻度と組み合わされた二次特徴として使用されてきた。コンティグカバレッジとGCコンテンツの両方を考慮する2つの既存の方法は、差分カバレッジベースのビニング[ref.33]とVizBin [ref.34]（紹介）である。しかし、異なるカバレッジベースのビニングでは、複数のサンプルからのデータが必要であり、VizBinでは手動でビンを選択する必要がある。 CoMetは、単一のメタゲノムサンプルと複数の株のサンプルの自動ビニングのために、主要な特徴としてGC含有量とコンティグカバレージの使用を探索するために使用された。さらに、広く使用されているビニング法とCoMetを、シミュレートされたメタゲノムとリアルメタゲノムを使い、複数のビニング性能測定を考慮して評価した。

CoMet-Universe webサーバーが準備されている。

2018年5月現在、サーバーはCoMet2になっており、タンパク質ドメインの分析に基づいた比較メタゲノミクス解析サーバーになっている。 CoMet 2は、NCBIのデータベースとPfamドメインおよびKEGG pathwayを用いて、メタゲノムデータの分類、機能および代謝プロファイリング解析を行うことができる。統計ツールを使って、一般公開データのあらかじめ計算されたプロファイルと目的のメタゲノムを比較することもできる。（同様のプロファイルを持つメタゲノムが自動的に検出される）。

CoMet-Universe web