メタゲノムcontigのビニングとアノテーションwebサーバー BusyBee Web

　メタゲノムシーケンシング、すなわち微生物混合群集から無差別に抽出されたDNAの全ゲノムシーケンシングは、分類学的組成および環境マイクロバイオームの機能的可能性を研究するために首尾よく使用されてきた（ref.1-4）。従来の単離培養工程の独立性は、費用および時間の削減、ならびにこれまで人工実験室条件下での培養の試みに抵抗してきた微生物を特徴付けることを可能にするので、しばしば利点と考えられる（ref.5,6）。メタゲノムシーケンシングは主に基礎研究に使用されてきたが、臨床現場でのその可能性は最近実証された（ref.7,8）。さらに、第３世代シーケンシング技術、例えばPacific Biosciences（PacBio）またはOxford Nanopore Technologies（ONT）の論文が発表されており、微生物混合群集の長期にわたる研究に基づいた研究が可能になっている（ref.9–11）。

　計算を用いたメタゲノムシーケンシングデータからの個々の生物（またはclosely relatedな生物集団）のレベルゲノム配列の回収は「ビニング」と呼ばれる。現在のビニング手法の本体は、（i）基準依存型手法と（ii）基準非依存型手法とに大別することができる。リファレンス依存のビニング手法は、通常、非常に短い実行時間と、高い感度および精度によって特徴付けられる（ref.12〜16）。しかしながら、これらのアプローチは、設計上、データベースに存在する参考文献の一部であるかまたはそれにclosely relatedな生物に由来する配列に対して最もよく機能し、そしてこれまで特徴付けられていない微生物に由来するゲノム配列でチャレンジングになる。対照的に、リファレンスに依存しないビニング手法は、入力データのみから配列クラスター構造を推測するため（ref.17–20）、主に配列構成に基づいている。事前知識に依存せず、複数のサンプルにわたるabundanceの共変動に頼る手法が出現している（ref.21〜24）。それらのリファレンス非依存性のために、これらのアプローチは現在のリファレンスゲノムデータベースでは限定的にしかない環境の分析に特に有用であり、しばしば「未分類」の配列の分解を可能にする。しかしながら、リファレンスに依存しないビニングは、かなりの量のCPU時間、特定の閾値を超えるシーケンス長、例えば1000 bp以上、理想的には独立したサンプルを必要とすることが多い。さまざまなビニングWebサーバーが存在するが、これらは主にリファレンス依存のアプローチ（ref.15、25〜27）に基づいているか、専用のコンピューティングリソースおよび/またはユーザートレーニング（28、29）が必要となる事前の計算が必要である。

　この論文では、メタゲノムシーケンシングデータセットのbootstrapped supervised binning（BSB）を実装するWebアプリケーションであるBusyBee Webサーバーを紹介することによって、現在利用可能なリファレンスに依存しないビニングツールを拡張する。本ビニングアプローチは、リファレンスデータベースに頼るのではなく、入力からトレーニングデータを「ブートストラップ」することによって、教師なしと教師付きの機械学習アプローチを組み合わせたものである。 BusyBee Webは、入力として単一のFASTAフォーマットのファイルのみを必要とし、シーケンスを母集団分解ビンに自動デコンボリューションする。 BSBでは、教師なしアプローチを使用して、クラスタがシーケンスのサブセットに対してde novoで定義される（ref.30–32）。このステップに続いて、応答/従属変数としてクラスターラベルを使用して、ランダムフォレストベースの分類器を学習する（教師部分）。ビニングをさらに加速するために、監視されていない部分（圧縮）の間にデータ点がそれらの最近傍（代表者）の代表として働くようにランダムにサンプリングされる任意選択の「圧縮」ステップが実施される。代表者とその仲間は、その後、それぞれの代表者のde novoクラスターラベル（展開）と組み合わせて、監視対象部分で使用される。したがって、トレーニングセットのサイズは、ランダムにサンプリングされた代表的なデータポイントを使用するだけの場合と比較して大きくなる。最終的に、すべてのシーケンス（デフォルトでは500 bp以上）には、ブートストラップ訓練された分類器を使用してラベルが割り当てられ、それによって最終的なビンのセットが定義される。クラスタリング／ビニング結果の検査のために、データ固有の推測された構造の２Ｄ散布図がユーザに提示される。これを補足するために、ビン品質、すなわち完成度、汚染度、および歪みの不均一性の推定値が計算され視覚化される。さらに、配列はKrakenを用いて分類学的にアノテーション付けられ、抗生物質耐性遺伝子の機能的アノテーションが行われる。すべてのビニングおよびアノテーションステップはWebサーバーによってユーザーに対して透過的に自動的に実行されるため、専用のコンピューティングリソースや特別なユーザートレーニングは必要ない。さらに、カスタムのシーケンス毎のアノテーションをユーザがアップロードすることができる。特定の関心のあるシーケンスをハイライトするために、そしてBusyBee Webは生成された結果をダウンロードするためのオプションを提供する。

Tutorial

https://ccb-microbe.cs.uni-saarland.de/busybee/tutorial/

Github

使い方

https://ccb-microbe.cs.uni-saarland.de/busybee/ にアクセスする。

Submit new jobをクリック。

f:id:kazumaxneo:20190704002159p:plain

FASTA配列 (contig / long read) をアップロードする（最大100MB）。

f:id:kazumaxneo:20190704002438p:plain

バグ防止のため、defaultではシーケンス名が短く変更される（ヘッダーが全て20文字以下ならOFFにしてO.K）。

Binningだけでなくアノテーションも実行するならEnabledに切り替える。

f:id:kazumaxneo:20190704002532p:plain

Taxonomic annotationにはkrakenを使ったtaxnomic assignmentが実行される。Functional annotationにはResfamsを使った抗生物質耐性遺伝子アノテーションが

必要に応じてパラメータを変更する。

f:id:kazumaxneo:20190704002535p:plain

submitボタンをクリックしてジョブを開始する。サンプルの複雑さとサーバーの混雑度に応じて、結果が出るまで数分〜1時間ほどかかる。

結果

ビンング結果は二次元の散布図として視覚化される。

複雑性が低いデータ。

f:id:kazumaxneo:20190703231137p:plain

複雑性が低いサンプルであれば、ラン時に cluster point threshold をdefaultの2000-bpから500-bpなどに下げることで回収率を上げることができる。

散布図をドラッグして囲むと拡大できる。

f:id:kazumaxneo:20190704005731p:plain

右上のボタンからも拡大可能。右上の弧を描いた矢印ボタンをクリックすると拡大がリセットされる。

右のメニューから表示にするBinを選択できる。

f:id:kazumaxneo:20190704005732p:plain

Bin1とBin5を非表示にした。

f:id:kazumaxneo:20190704010323p:plain

Taxonに切り替えれば、プロットは分類階級によって色分けされる。

f:id:kazumaxneo:20190704005705p:plain

Functional annotationをONにして解析していれば、右のメニューから抗生物質耐性遺伝子のプロットを表示できる。

f:id:kazumaxneo:20190704011728p:plain

バンコマイシン耐性関連遺伝子を視覚化した。抗生物質耐性遺伝子のプロットサイズは図の下にあるPoint size annotation pointsバーから変更可能。

複雑性が高いデータ。右側の交差してしまっているビンを非表示にした。

f:id:kazumaxneo:20190704011012p:plain

配列数とビンクオリティ

f:id:kazumaxneo:20190704011241p:plain

各ビン/クラスターの分類組成

f:id:kazumaxneo:20190704011245p:plain

　ビニング結果は下のボタンからダウンロードできる。

f:id:kazumaxneo:20190704011455p:plain

引用
BusyBee Web: metagenomic data analysis by bootstrapped supervised binning and annotation
Cedric C. Laczny, Christina Kiefer, Valentina Galata, Tobias Fehlmann, Christina Backes, Andreas Keller

Nucleic Acids Res. 2017 Jul 3; 45(Web Server issue): W171–W179