現在のシナリオでは、生物学的データの大量生成は、特に原核生物のような多数の生物に関していくつかの実験的および計算技術の結果として、ますます一般的になっている。例えば、メタゲノミクス実験からは、所与の試料(例えば、腸、海水など)中でDNA断片から検出された長いバクテリアのリストが生成される。同様に、遺伝子/タンパク質ファミリーの系統発生プロファイルが得られると、そのバクテリアセットのファミリーに関する情報、およびそれが存在しない相補的セットについての情報を提供する(Pellegrini et al、1999)。そのようなデータセット内の生物の異なる/特徴的なfeatureは、研究中の生物学的現象に関する有用な情報を提供することができる。最初のメタゲノム実験での例を示すと、そのサンプルで検出された微生物のゲノム/生物学的特徴は、サンプルの特性(環境条件、栄養素の利用可能性など)を反映すると予想される。同様に、第2の遺伝子/タンパク質ファミリーの系統発生プロファイルの例だと、所与の遺伝子/システムを発現する生物のいくつかの特徴的なfeatureはその生物学的役割と関連しており、したがってその情報からその役割を推測でき得る(e.g., for ORFs with no known function)。1セットの生物のユニークな特徴を分析することによって、例えばそのようなセットが特にグラム陽性生物または病原性生物に富んでいるものかどうか、またはそれらがより大きなゲノムまたは「アミノ酸代謝」に関与するより多くの遺伝子を平均(バックグラウンド)よりも有する傾向があるかどうかを検出できる。
一般的な微生物の集合から異なる特徴を自動的に抽出するための単一のツールは存在しないので、そのような研究は一般に多かれ少なかれ手動で行われてきた。それはまた、さまざまな微生物について多くの情報が利用可能である一方で、それがさまざまなデータベースにわたって広く分散されているという事実に一部起因し、それ故、それを共通の枠組みでマイニングすることは困難である。
特定の生体分子、例えば遺伝子/タンパク質(Huang et al、2009)または代謝産物(Barupal et al、2018)でエンリッチされたもののfunctional annotations のために広く用いられているアプローチに触発されて、著者らは同じ考えを微生物セットに適用した。世界的にenrichment またはover-representation analysis として知られているこれらのアプローチは、生体分子の長いリスト(例えば、特定の実験で過剰発現されるもの)を生物学的用語で解釈し、そのようなリストを意味のある生物学的キーワードのより小さいセットに変換することを可能にする。これは、これらの分子を背景(例えば、研究中の生物の全ゲノム)から区別するアノテーションを抽出することによって行われる。
著者らは“ Bacterial Feature Finder”ウェブサーバー(BaFF)で微生物のセットに対してこの種の分析を実行した。バクテリアの特徴(定性的および定量的)の大きなデータベースを使用して、システムは、背景セットと比較して生物の入力セットに差別的に関連するものを見つけることができる。結果はインタラクティブなグラフィカルインターフェースを通して表示され、それらはさらなる処理のためにエクスポートすることができる。
Help / Tutorial
http://csbg.cnb.csic.es/BaFF/tutorial.php
FAQs
http://csbg.cnb.csic.es/BaFF/faqs.php
BaFFに関するツイート
使い方
http://csbg.cnb.csic.es/BaFF/ にアクセスする。
絞り込むため、何らかの情報を記入する。
例えばDeseaseの欄にTularemia(野兎病)と入れてみる。
Searchをクリック。
結果が表示された。
リンクをクリックすると、詳細が表示される。
(臨床)単離株で、細菌分類試験や観察の結果が分かっているなら、特徴から絞り込むこともできる。Deseaseの欄は空欄、グラム染色陽性、芽胞形成なし、運動性あり、(熱耐性や低温耐性なしの)中温性、好気性、球菌、で検索。国の行政機関の細菌試験(食中毒汚染など)では、このような情報が真っ先に出るはずで(DNA情報は使えない)、実際にあり得るシナリオと思われる。
(IDでも絞り込める。IDはNCBI taxonomic IDのみ対応している。)
1件のみヒットした。
グラム染色陽性のみで絞ると4076件ヒットしたので、複数情報入れてAND検索(&&)することで、加速度的に絞り込めている。結果はTSVファイルとしてダウンロードできる。
菌の特徴についてエンリッチメント解析を行うこともできる。
検索結果をそのまま入力として使いたければ、Input Setにチェックを入れる。
エンリッチメント解析結果
結果はp valueとFDRでランク付けられる。上の画像はOxigen requirementのみチェックを入れている。このように、検索時に温度についての情報がなくても、エンリッチされた系からあり得るフェノタイプについて確率ベースで絞り込める。
利用可能な全情報については、helpと論文で確認してください。臨床でも役に立つデータベースだと思います。
Bacterial Feature Finder (BaFF) – a system for extracting features overrepresented in sets of prokaryotic organisms
Javier López-Ibáñez, Laura T Martín, Mónica Chagoyen, Florencio Pazos
Bioinformatics, Published 14 February 2019