ゲノムシークエンシングにより、細菌や古細菌の驚くべき多様性が明らかになったが、これらのゲノムを横断的に閲覧するための高速で便利なツールは存在しない。原核生物の多様性の中で、目的のタンパク質のホモログの存在率や、それらのホモログの遺伝子近傍を見るのは面倒である。本著者らは、原核生物の多様性を横断的に高速ブラウジングするために、2つの戦略を用いたウェブベースのツール、fast.genomicsを開発した。まず、ゲノムのデータベースを分割する。メインデータベースには、高品質なゲノムを持つ6,377属の各属から1つの代表ゲノムが含まれ、各分類目の追加データベースには、各生物種の代表ゲノムが最大10個含まれる。第二に、目的のタンパク質のホモログは、通常数秒の高速検索により迅速に同定される。一旦ホモログが同定されると、fast.genomicsは、分類群間でのそれらの存在率を素早く表示し、それらの隣接遺伝子を表示し、あるいは2つの異なるタンパク質の存在率を比較することができる。
数万種の細菌や古細菌のゲノム配列が揃った今、我々はそれらのタンパク質の機能を予測したいと思う。一般的な戦略の一つは比較ゲノム学である。どのゲノムが似たようなタンパク質を含んでいるか、どのタンパク質が互いに近くにコードされていることが多いかを考慮することで、タンパク質の機能を推測できることが多い。しかし、このような解析を素早く行う良い方法はなかった。本著者らは、このような解析を数秒で行うウェブサイトを構築した。類似タンパク質を見つけるという重要なステップをスピードアップするために、2つの戦略を用いた。まず、ゲノムのデータベースを、各属ごとに1つの代表を持つメインデータベースと、分類学上の目ごとにサブデータベースに分割した。いずれにせよ、より少ないゲノムに対する検索はより高速になる。第二に、類似タンパク質を見つけるために、感度の少しの低下を犠牲に加速した検索を行う。
https://fast.genomics.lbl.gov/cgi/search.cgiにアクセスする。
(HPより)Fast.genomicsには、ゲノムツリーデータベースを用いて分類されている、古細菌とバクテリアの6,377属の代表ゲノムが含まれている。高品質なゲノムのみが含まれている。GUNCを用いてキメラの可能性が排除されている。
トップページ下のリンクからゲノムのリストや使用されているタンパク質のfastaをダウンロードできる。
調べたいタンパク質配列のfastaファイルを貼り付ける。
あるいは識別子、もしくは属名とタンパク質のdescriptionを入力する(Text queries must start with a genus)。
検索すると、データベースで一致する配列がリストで表示される。EAS44_RS05705をクリックした。
Curated BLAST(paper)にもリンクしている(シームレスにCurated BLASTでそのままジョブが実行されるわけではない)。
出力
クエリと隣接したORFが表示されている。
gene neighborhoodsをクリックした。
gene neighborhoods
中央がクエリの配列。近傍遺伝子が保存されているかどうかを示すために、遺伝子を相同性で色分けしている。LASTによって類似している(少なくとも50%のカバレッジを持つ)遺伝子に同じ色が割り当てられる。右端は属レベル分類で、クリックするとその属のGTDB taxonomyやNCBI taxonomyなどの情報を確認できるページにジャンプする。
各遺伝子の上にマウスカーソルを置くと、そのアノテーションが表示され、クエリと何%配列が一致しているかも示される。
表示領域のサイズを12kbにした(選択後、右端のchangeをクリック)。
ヒットをTOP25にして、show treeにチェックを付けた。
ツリーを非表示にして、taxonomyをdetailedにした。アノテーションが表示されている。
同じ色を付けるアミノ酸同一性の閾値は右端のcolorから変更できる。デフォルトは50%。
上の方のproteinをクリックするとタンパク質配列のセット、あるいは表形式の遺伝子やゲノムのアクセッションID一覧をダウンロードできる。
taxnomic distributionをクリックすると、門レベル分類での存在率を表形式で取得できる。
出力ページに戻り、今度はcompare presence/absenceをクリックする。このモードでは、2つ目のタンパク質を選択し、最初の配列とともにそれらの分布(共起性または系統プロファイリング)を比較することができる。
compare presence/absence
2つ目のタンパク質配列を指定する。
配列を指定してサーチをクリックすると、fast.genomicsは2つの方法でそれらの分布(共起分析または系統プロファイリング)を比較する。
計算には時間がかかる。
(1分程度の)時間経過後、再ロードすると結果が読み込まれる。まず、各ゲノムで最もヒットしたタンパク質のスコア比(ビットスコア÷最大スコア)がプロットされる。
Co-occurence: all homologsの部分には、3,599と5,604ゲノムでホモログが見つかったと表示されている。また、そのうち3287ゲノムで両方の遺伝子のホモログが含まれていると表示されている。さらに、各ゲノムで最良のヒットのみを考慮すると、590のヒットが近傍(5kb以内)で同じ鎖上にあり、同じ遺伝子(融合遺伝子など)へのヒットは0である、と表示されている。Co-occurence:good~(above 30% of maximum bit score: 図の黄色の波線より右上の側) にも同様の説明がある。
Co-occurrence: optimal thresholdでは、共起の統計的シグナルが最も強いのは、各遺伝子の上位xxxホモログで、yyyゲノムで共起しており、P = zzz (フィッシャーの正確検定、片側、ボンフェロンニ補正あり)。対応するビットスコアの閾値はそれぞれaa(最大値のbb%)とcc(最大値のdd%)。これらの共起ホモログのうちee個(ff%)は近傍(5kb以内で同じ鎖上)にある、とある。
各点はタンパク質1および/またはタンパク質2のホモログを含むゲノムで、各軸はそのゲノムで最もスコアの高いホモログのスコア比(ビットスコアを最大値で割った値)。2つのホモログが近くに(5kb以内で同じ鎖上に)コードされているゲノムは緑色でハイライトされている。あるゲノムに一方のクエリのホモログが存在し、もう一方のクエリのホモログが存在しない場合、スコアはゼロ以下のグレーの領域に表示される。"close by"は隣接して同じ鎖上、"same"は同じ遺伝子(融合遺伝子など)、"other"は同じゲノムになるが遠い時など。スコア比が高いヒットほどclose byなプロットが増えている。フィッシャーの正確検定のP値(P値は2つの遺伝子が独立してゲノムに現れるという仮定に基づいている)の閾値は黒い波線(optimal)。
ゲノム中の同じタンパク質が両方のクエリで最高得点のホモログである場合(融合タンパク質など)、そのゲノムは青でハイライトされる。この解析により、同じゲノムに存在するものの近傍にはないのか、同じゲノムにあり且つ近傍の同一ストランドに存在するのかなど評価できる。
結果のページ下にある which taxa have both genesからは、両方のホモログを持つ門レベルの割合を確認できる(同じゲノムにあるが、近傍にあるかどうかは問わない)。
分類階級も変更可能。
結果のページ下にある the genes nearbyからは、両方のホモログを持ち、且つ近傍の同一ストランドにあるゲノムの門レベルの割合を確認できる。
Pseudomonadotaだけとなった(注;Pseudomonadotaは2021年に変更になったProteobacteria門のこと、現在ではProteobacteriaはシノニム扱い)。
最後に、TOPの検索画面では、taxonで検索することもできる。
検索すると属の代表ゲノムとそれ以外の株などが表示される。
属の代表ゲノムを選ぶと、その株を対象にBLASTを行うことができる。
ヒットが見つかると、そのヒットをクエリとして、上で説明したのと同様の遺伝子保存性の解析を行える。
画面下部には他のサイトへのリンクもある。
1) PaperBLASTは興味があるタンパク質情報を文献やデータベースからマイニングする webサービス。どのような文献の文脈でそのタンパク質名が頻出しているのか素早く調べることができる(紹介)。2) SitesBLASTは、タンパク質の配列から既知の機能的残基を持つホモログを見つけ、その機能的残基が保存されているかどうかを表示する(HP)。3) Search for conserved domainsは、タンパク質ドメインを探すNCBI-CD-searchのこと(紹介)。4) Find the best match in UniProtはUniprotのベストマッチの配列の探索、5) Compare to protein structuresは、PDBsumによるPDBの類似の構造情報の探索(論文)、6) Predict transmenbrane helices: Phobiusは膜貫通ヘリックス領域を予測する Phobius、7) Predict protein localization: PSORTbはPSORTbによる細胞内局在の予測、8) Fitness BLASTはFitness Browserによるフィットネスの情報(紹介)、9) 89% id. to~も8のFitness Browserへのリンク。
その他
- Fast.genomicsでは、mmseqs2を用いて目的のタンパク質配列のホモログを検索する。これには通常数秒かかる。検索を高速化するために、fast.genomicsはmmseqs2のインデックスをメモリに保持し、並列にアライメントステップを実行する。目的のタンパク質がfast.genomicsのデータベースにある必要はない。
多機能すぎてあまり上手く紹介できませんでした。アクセスしてみて下さい。レスポンスがとても良いです。
引用
A fast comparative genome browser for diverse bacteria and archaea
Morgan N. Price, Adam P. Arkin
bioRxiv, Posted November 18, 2023