macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

細菌の分類学的に制限された遺伝子を探索するためのリソース TRGdb

 

 TRGdbデータベースは、バクテリア分類学的制限遺伝子(TRG)に特化したリソースである。最新の細菌分類学に基づき、異なる属や種に特異的な遺伝子を包括的に収集している。ユーザーインターフェースは、ブラウズや検索、配列の類似性探索を容易にする。また、各TRGタンパク質配列の無秩序度、複雑度、凝集傾向などの情報も提供されている。TRGdbは、TRGに関連する、細菌生物のユニークな特徴や特性をより深く理解するための貴重なリソースである。TRGdbリソースは、www.combio.pl/trgdb から自由にアクセスできる。

 

helpより

TRG遺伝子の同定は、3つのステップに分かれて行われた。
DIAMOND v2.0.15を用いて、GTDBの62,291細菌種(nproteins = 193,808,833)のタンパク質配列間で全対全比較を行った。次に、クエリタンパク質のうち、クエリ種の属外の細菌種に属する相同配列(E-value ≤ 10-3)を持つものを削除した。これらの残った配列を、属レベルでTRG遺伝子候補として分類した。
次に、BLAST+ v2.13.1を用いて、候補TRG遺伝子の検証を行った。具体的には、クエリ属以外のどの配列とも有意な類似性(E値≦10-3)を示さない候補TRG配列を、属特異的TRG遺伝子と同定した。
最後に、得られた属特異的遺伝子リストから、細菌の種特異的遺伝子リストを抽出した。種特異的遺伝子は、クエリ種の外にホモログがなく、クエリ種の属がGTDB分類学によると少なくとも2種を包含するものと定義された。

Help

https://afproject.org/trgdb/help/

 

webサービス

https://afproject.org/trgdb/



searchではゲノムのGenBank ID名から検索できる(左上が検索ウィンドウ)。全タンパク質、TRG genus数とTRG species数 などが表示されている。

 

1つ見てみる。TRG genusとTRG speciesのタンパク質リストが表示されている。

長さも表示されているので、アノテーションの品質に起因することがある短いタンパク質であるかどうかもチェックすることができる(仮説的なタンパク質の多さは論文でも議論されている)。disorderはタンパク質がどの程度、本質的に無秩序な領域で構成されているかを評価する指標。aggregationはそのTRGタンパク質配列のタンパク質平均凝集度を評価する指標 (論文参照)。

 

1つタンパク質をクリックした。タンパク質配列などが表示されている。

 

 

Browseではbacteriaのルートから分類ごとに閲覧できるようになっている。その分類で含まれるゲノムの数が確認できる。

種レベルではいずれも1つだが、属より高次の分類階級でのゲノムの利用可能数は分類毎に大きく異なっている。ある程度多くのゲノムが利用可能な分類のほうが精度の高い推定値になっていると予想される。そのため、ゲノム数は参考になる。

BLASTではTRG遺伝子データベースに対してBLASTpサーチできる。

 

 

ダウンロードからはゲノムやTRG遺伝子をまとめたCSVファイルをダウンロードできる。

 

コメント

昔から個人的に必要だと思っていたデータベースです。利用したいと思います。

引用

TRGdb: a universal resource for exploration of taxonomically restricted genes in bacteria
Andrzej Zielezinski, Wojciech Dobrychlop,  Wojciech M. Karlowski

bioRxiv, Posted February 18, 2023

 

関連