macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

どれだけ知られていないかを基にタンパク質をランク付けする Unknomeデータベース

 

 ヒトゲノムには約2万個のタンパク質がコードされているが、その多くはまだ解明されていない。科学研究は、よく研究されているタンパク質に焦点を当てがちであることは明らかであり、未解明の遺伝子が不当に軽視されているという懸念につながっている。この問題を解決するために、本著者らは、一般に利用可能でカスタマイズ可能な "Unknomeデータベース "を開発した。ショウジョウバエで同等の遺伝子が存在するヒトの遺伝子のうち、両方の種でknowledgenessスコアが1以下の遺伝子260個について、RNA干渉(RNAi)を使ってショウジョウバエの標的遺伝子をノックダウンした。いくつかの遺伝子をノックダウンすると生存能力が失われ、残りの遺伝子を機能スクリーニングしたところ、生殖能力、発生、運動、タンパク質の品質管理、ストレスに対する回復に関するヒット遺伝子が見つかった。CRISPR/Cas9による遺伝子破壊では、Notchシグナル伝達の構成要素と、雄の生殖能力に寄与する2つの遺伝子が検証された。本研究は、十分に理解されていない遺伝子の重要性を示し、将来の研究を加速させるリソースを提供し、誤ったアノテーションが我々自身の無知に対する認識を損なわないように、データベースのキュレーションをサポートする必要性を強調している。

 

ここでは、公開されているUnknomeデータベースを簡単に紹介します。

webサービス
https://unknome.mrc-lmb.cam.ac.uk/ にアクセスする。

このデータベースは、ヒトやモデル生物から、その性質がよく分かっていないタンパク質を選択し、調査の対象とすることを助けることを目的としている。そのために、機能、生物種間の保存性、細胞内コンパートメント化、その他の要素に関する科学文献の情報を反映して、すべてのタンパク質に「knowness」スコアを割り当てる。各タンパク質はPantherデータベースに基づいてオルソログのクラスタに分類される。knownessスコアは、そのクラスタのメンバーに割り当てられたGO termsの最大数として定義される。GOアノテーションの信頼度や機能との関連性は様々であるため、スコアを計算する際、異なるタイプの証拠に異なる重みを割り当てることができる。このシステムに基づくと、know-nessがゼロに近いタンパク質が何千と存在することになる(マニュアルより)。

 

Ranked Clustersタブ

Knownessスコアでランク付けされたタンパク質クラスターのリストと、そのクラスターと含まれるタンパク質に関する詳細情報へのリンク。

クラスタID,knownessスコア、最もよく知られたタンパク質、ヒトでのタンパク質、PANTHER知識ベースからのアノテーションクラスタごとに含まれるタンパク質数などが示されている。

 

1つ見てみる。系統的分布、含まれるタンパク質のリスト、それぞれのタンパク質のknownessスコアなどが示されている。右側のグラフ”Knownness history”には、時間経過に伴う knowness の変化が表示されている(このクラスタのメンバーはほぼ研究されていないので2011~2021年まで0が続いている)。

右上からタンパク質のfastaファイルをダウンロードできる。

 

各タンパク質のIDは、uniprotかWormBaseにリンクしている。EMBLにリンクされていて配列を取得できる。Interproscanへもリンクされている。GO termがアサインされているタンパク質はQuickGOへリンクされている。

 

 

Cluster searchタブ

クラスターやタンパク質の IDで検索できる。

 

クラスタID:UKP00123で検索した結果(Rankedタブと同じ)

 

Settingsタブ

重み値をカスタマイズしてUnknomeデータベースの各タンパク質クラスターのカスタムknowledgeness値を再計算する。クラスターのフィルタリングなどに使用できる(インターネットセッション内でのみ有効)。

テスト時はエラーになった(macsafari使用)。

 

 

  • モデル生物由来のタンパク質、ヒトゲノム由来のタンパク質が含まれる。ユーザーはさまざまな要素に独自の重み付けをすることができ、それによって自分の研究の優先順位を決めるための独自のknowledgenessスコアを生成することができる(Settingsタブ)。

引用

Functional unknomics: Systematic screening of conserved genes of unknown function
João J. Rocha ,Satish Arcot Jayaram ,Tim J. Stevens ,Nadine Muschalik ,Rajen D. Shah,Sahar Emran,Cristina Robles,Matthew Freeman ,Sean Munro 
Plos Biology, Published: August 8, 2023

https://doi.org/10.1371/journal.pbio.3002222

 

 

参考

“Unknome” Database Ranks Proteins Based on How Little Is Known about Them

https://www.genengnews.com/topics/omics/unknome-database-ranks-proteins-based-on-how-little-is-known-about-them/

"我々は、生物学的機能の主要な分野、さらには全く新しい分野に関与している可能性があるにもかかわらず、確実に機能が知られていない保存状態の良い遺伝子が大量に存在するという、巨大でありながら十分に議論されていない問題に直接取り組むアプローチを開発した。 マンロー氏「何千種類ものヒトタンパク質の役割は不明確なままですが、研究はすでに解明されているものに集中しがちです。この問題を解決するために、私たちはUnknomeデータベースを作成しました。このデータベースは、タンパク質についてほとんど知られていないことに基づいてタンパク質をランク付けし、これらの謎のタンパク質の一部について機能スクリーニングを行い、無知がいかに生物学的発見を促進するかを実証しました。」"