細菌のタンパク質毒素データベース Toxinome

　タンパク質毒素は生物学における重要な分子兵器であり、隣接する細胞を攻撃するために使用される。細菌はタンパク質毒素を使って、原核細胞や真核細胞を死滅させたり、成長を阻害したりする。毒素は、様々な生息環境におけるマイクロバイオームの形成、ファージ感染の頓挫、動植物における重篤な感染症の原因となっている。いくつかの毒素データベースが開発されているが、それぞれが特定の毒素ファミリーに特化しており、比較的少数の毒素を網羅している。抗菌毒素は、しばしば同族毒素を中和する抗毒素（あるいは免疫タンパク質）を伴っている。Toxinomeは、多くのリソースから得られた毒素と抗毒素を統合し、包括的かつ最新の細菌タンパク質毒素データベースとして構築された。Toxinomeには、生命のツリー全体の59,475の細菌ゲノムにコードされた合計1,483,028の毒素と491,345の抗毒素が含まれている。極端な高温に生息する細菌において、毒素と抗毒素遺伝子の枯渇を同定した。系統学的に多様な細菌ゲノムの中に、毒素・抗毒素遺伝子が密集する5,161のユニークな毒素アイランドを定義した。これらのアイランド内の注釈付けされていない遺伝子に注目することで、これらの遺伝子の多くを毒素または抗毒素として特徴付けた。最後に、データベースの検索とダウンロードが可能なインタラクティブなToxinomeウェブサイト（http://toxinome.pythonanywhere.com）を開発した。Toxinomeリソースは細菌毒素に興味を持つ多くの研究者にとって有用であり、毒素の発見や機能解明、感染症の診断や治療の指針となる。

ここではToxinomeのウェブサイトを簡単に紹介します。

webサービス

http://toxinome.pythonanywhere.com/にアクセスする。

Browse by organismをクリックするとアルファベット順に整理された生物名でデータベースをブラウズできる。Eをクリック

大腸菌の株を選択してみる。

Escherichia coli K12

ゲノムにコードされている毒素と免疫遺伝子に関する情報が得られる（右端のTox/Anti-Tox列）。

各タンパク質はPfamドメインと関連付けられている。Length列をクリックするとIMGウェブサイトのタンパク質配列にアクセスできる。右端の列には、その遺伝子が属しているタンパク質クラスターのIDが表示されている。

タンパク質クラスターIDをクリックすると、そのクラスターにクラスタリングされているタンパク質の一覧を確認できる。

Toxin Islandsが同定された株の場合、種名の下にあるリンク”Toxin Islands”からToxin Islandsのリストを閲覧できる、

このVibrio Choleraeの株では２つのToxin Islandsが見つかっている。

Browse by pfafmでは、Pfamの該当するドメインを持つ毒素タンパク質を検索できる。

左のメニューから高度な検索、および配列類似性検索を行える。

また同定されたtoxin islandの検索も行うことができる。

論文より

Toxinomeデータベースを用いて、毒素および抗毒素遺伝子が非常に豊富な5,161のゲノム領域の大規模コレクションを定義した。このToxin Islandsは、現在機能解析されていない新規毒素および毒素関連遺伝子の同定に利用できる。
Toxinomeは、4つのデータベースから収集した毒素タンパク質を組み合わせることで開始した：SecRet6 , BACTIBASE, TADB, BAGEL4 。さらに、UniProtデータベースから、キーワード検索（「toxic」や「toxin」など）を用いて多数の毒素タンパク質を収集した。収集された175,573の毒素をCD-HIT （閾値=0.7、アラインメントカバレッジ=0.92）を用いてクラスタリングした。タンパク質は70,867のグループに分類された。次に、Integrated Microbial Genomic (IMG)データベースからダウンロードした微生物ゲノムに毒素遺伝子をDIAMONDマッピングした。
Toxin Islands内のhypothetical proteinの構造を予測し、機能的に特徴付けるために、2段階のアプローチを採用した。まず、深層学習ベースの手法であるColabFoldを利用して、これらのタンパク質の構造を予測した。ColabFoldはProtein Data Bankのファイルランキングシステムを利用しており、出力ファイルから最もランクの高いPDBファイルを選択した。その後、これらのタンパク質の機能解析を行うために、Foldseekを選択した。Foldseekは、類似タンパク質の構造アライメントと同定を可能にし、その構造特性と潜在的な機能的役割に関する貴重な洞察を与えてくれる。これを達成するために、本著者らはFoldseekの組み込み検索機能を利用して、"AlphaFold/UniProt50 v4 "と "PDB100 2201222 "データベースに対してタンパク質の検索を行った。関連性が高く、信頼性の高いマッチを確実に選択するために、Foldseekから得られた結果をフィルタリングするための閾値を導入した。適用した閾値は、e-valueが0.003より低いこと、TM-scoreが0.6より高いこと（TM-scoreはタンパク質構造の位相的類似性を評価するための指標である）、クエリタンパク質のカバー率が90％以上であることなど。