従来の比較ゲノム解析と比較して、近年のパンゲノミクス研究は、種のゲノム動態、分類・同定、病原性、環境適応について、さらなる洞察をもたらしている。そこで、原核生物のパンゲノム動態を包括的にプロファイリングするために、古細菌23種、細菌1,481種(合計51,882株)を網羅した公開データベースProPan (https://ngdc.cncb.ac.cn/propan)を紹介する。ProPanは、これらの膨大なデータセットを解析・統合することで、対象種のパンゲノムダイナミクスに対して3つの主要な側面を提供する。1)パンゲノムダイナミクスにおける様々な種の特徴や構成の評価、2)含まれるすべての種の遺伝子クラスターに対するマップの関連性、機能アノテーション、存在/不在の変化の可視化、3)126のsubstances(殺菌剤、抗菌剤、金属)の耐性遺伝子予測や31代謝サイクルプロセスの評価などの環境適応の典型的な特徴。さらに、ProPanは非常に使いやすいインターフェース、柔軟な検索、多階層のリアルタイム統計的可視化機能を開発した。ProPanは、原核生物のパンゲノム動態、分類・同定、環境適応の研究において、重要なリソースとなるだろう。
Documentation
https://ngdc.cncb.ac.cn/propan/documents
https://ngdc.cncb.ac.cn/propan/にアクセスする。
Homeからは、関心がある細菌を検索できる。
Browseタブからは、収録されている細菌と古細菌を絞り込んだり、クリックして詳細を閲覧できる。
ゲノムと関連する統計情報はNCBIから取得されている。低品質ゲノムは除外され、合計51,882の株のゲノムが使用されている。
1つ見てみる。左端の種名はNCBI taxonomyにリンクしている。収録されている株数は12で(全て5以上)、中央のバーはコア遺伝子やユニークな遺伝子の割合を示している。openかcloseかも示されている(新しいゲノムを解析に加えたときに、新しい遺伝子ファミリーが検出される確率によって、オープンとクローズに分類される)。
右端のDetailをクリックすると、その種の特徴を表す詳細な情報にアクセスできる。
ProPan で解析した種の株の基本統計量(CDS数、GC含量、コア遺伝子数、dispensable 遺伝子数、ユニーク遺伝子数)。
Nucleotide Diversity;図の各ドットは遺伝子クラスターを表す。コア遺伝子クラスタと可変遺伝子クラスタについて、それぞれ塩基多型値(Pi)と変異パラメータ(Theta)が算出されている。
コア遺伝子、dispensable 遺伝子(一部の生物にのみ存在する遺伝子)、ユニーク遺伝子に分けてCOG機能カテゴリーがアノテーションされている。
代謝サイクルには、炭素サイクル、窒素サイクル、硫黄サイクル、その他のサイクルがある。この細菌種には硫黄サイクルがcoreになっている。
環状のヒートマップは、抗菌性、殺生物剤、金属の3つのカテゴリーを含む耐性の有無の変動を示している。リングの外側方向には特定の物質が書かれている。コア遺伝子、dispensable 遺伝子、ユニーク遺伝子の3つのリングには、保存性がヒートマップで表現されている。
表は、全ゲノムの遺伝子クラスタリングマトリックスを表している。各行は相同性クラスタリングに基づく遺伝子クラスターを表している。各列には、その遺伝子クラスターが、コア遺伝子・dispensable 遺伝子・ユニーク遺伝子のいずれか、COG機能分類、遺伝子クラスタアノテーション、酵素アノテーションと分類、KEGGのKOアノテーション、代謝経路アノテーション、酵素反応アノテーション、耐性(抗菌薬、殺生物、金属)アノテーション情報がまとめられている。
表の右端をクリックすると、STRINGデータベースをもとに、遺伝子群のタンパク質-タンパク質相互作用ネットワークが表示される。
Searchタブでは、様々な条件で検索できる。
引用
ProPan: a comprehensive database for profiling prokaryotic pan-genome dynamics
Yadong Zhang, Hao Zhang, Zaichao Zhang, Qiheng Qian, Zhewen Zhang, Jingfa Xiao Author Notes
Nucleic Acids Research, Published: 28 September 2022
関連