系統プロファイリング」として知られるゲノム間のco-occurring genesを統計的に検出する方法は、遺伝子間の機能的関連を推測するための強力なバイオインフォマティクス技術である。系統樹データベースのサイズと複雑さ、系統樹構造の考慮の難しさ、ゲノムアノテーションの不一致、計算量の多さなどを考慮すると、これは困難な作業であると考えられる。
著者らは、大規模な系統マップデータセットにおける遺伝子co-occurrence解析のための計算フレームワークであるPhyloCorrelateを紹介する。PhyloCorrelateは、標準的な相関指標や系統ヒストリーを考慮したモデルベースの指標など、様々なco-occurrence指標を実装している。複数のメトリクスを組み合わせることで、GO termsとKEGG pathwayが重複している遺伝子をリンクさせる能力に優れた最適化スコアを開発し、遺伝子の機能予測を可能にした。GTDBデータベースとAnnoTreeからのゲノムおよび機能アノテーションデータを使用して、 bacterial tree of life全体にわたる遺伝子出現プロファイルの全対全比較を行い、27,372の細菌ゲノムにまたがる28,315の遺伝子について合計154,217,052の比較を行った。すべての予測はオンラインデータベースで利用可能で、PFAM、TIGRFAM、またはKEGGのクエリに対してトップの相関遺伝子を瞬時に返す。合計で、PhyloCorrelateは、細菌の遺伝子/タンパク質のペア間の29,762個の高信頼度の関連付けを検出し、834個のDUFと機能未知のタンパク質の機能予測を生成した。
PhyloCorrelateは、phylocorrelate.uwaterloo.caのウェブサーバーとして利用できるほか、カスタムデータセットを解析するためのRパッケージとしても利用できる。PhyloCorrelateは、遺伝子ファミリーの機能や相互作用を予測するツールとして広く利用されることを期待している。
ここではphylocorrelate.uwaterloo.caのウェブサーバーだけを紹介します。
https://phylocorrelate.uwaterloo.ca/app/ にアクセスする。推奨ブラウザはChrome。
4つのモードがある。KEGG Orthologsを見ていく。
クエリとする遺伝子名をタイプする。KEGGの識別子でもよい。
該当する遺伝子が全て表示される。機能アノテーションを見て、該当する方の遺伝子のKEGG識別子をクリックする。
確定するとAnnoTree(紹介)へのリンクも表示される。
検索ウィンドウの右側にはクエリの遺伝子と共存在する遺伝子の表が表示される。
表は先頭行をクリックすることで並べ替えできる。下の画像はJaccard重複係数(JC)順。cobQ, cbiP; adenosylcobyric acid synthaseが先頭になっている。
表全体はダウンロードボタンから取得可能。
PhyloCorrelateは、ツリーのトポロジーを考慮して、共存在パターンが統計的に有意であることを確認するための系統的補正も実装している。これにより、遺伝子AとBがたまたま同じ系統内で保存されているという理由だけで発生する見かけ上の相関関係を取り除くことができる(詳細は論文参照)。
パラメータは左側のGlobal Filterタブからいつでも変更できる。
共存在する遺伝子のLInksは外部リンクになっている。Kの文字はKEGG ORTHOLOGYにリンクしており、その右側のAの文字はAnnoTreeにリンクしている。
KEGGからTIGRFAM( Craig Venter Instituteの管理するタンパク質ファミリーのデータベース(wiki))に変えると、KはTに変わり、TIGRFAMへのリンクが提示される。
AnnoTree
Correlation Network
Pathway Enrichment
Score Distribution
上のメニューからデータベースをKEGG以外に変更可能。
TIGRFAMデータベース
Pathway EnrichmentはGO Enrichmentに変わっている。
PFAMデータベース
BLASTPタブではクエリのタンパク質のアミノ酸配列からBLASTP検索して共存在する遺伝子を探索可能。
メモ
- PhyloCorrelateは、細菌全体で系統的に類似した分布を持つ遺伝子を検出する。クエリ遺伝子についてバクテリアの系統樹全体での有無の分布が調べられ、それと他のすべての遺伝子の分布からJaccard重複係数(JC)やハイパージオメトリックp値統計量を含むいくつかの指標を用いて類似度が計算される。最も高いJCスコアを持つ遺伝子が、相関パートナーの最上位候補となる。
- Max OccDiff & Max -log10(rHyperP)。良好なレベルの機能一致予測は、PFAMでは180以上、TIGRFAMでは150以上、KOでは210以上の-log10(rHyperP)スコア(Tremblayらの図2Aを参照)。
- 最小JC: JCメトリックは一般的に、0.9以上のKO間のスコアは例外であるが、機能一致の可能性の高いものを検出するためにはあまりうまく機能しない(Tremblayらの図2Aを参照)。
- 最小rJC:許容可能な機能一致予測は、PFAMでは0.6以上、TIGRFAMおよびKOでは0.5以上で達成され得る(Tremblayらの図2Aを参照)。
右端のHELPでは、研究対象の遺伝子が見つからない場合の対処方法等が記載されています。確認して下さい。
引用
PhyloCorrelate: inferring bacterial gene-gene functional associations through large-scale phylogenetic profiling
Benjamin J-M Tremblay, Briallen Lobb, Andrew C Doxey
Bioinformatics, Published: 08 January 2021
関連