macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

細菌の近傍に存在するタンパク質ファミリーを調べる ProFaNA

 

 機能的に関連する遺伝子は、特に原核生物において、ゲノム上でしばしば近傍にグループ化されることがよく知られている。この現象が起こる進化的メカニズムは様々であるが、未知の遺伝子の機能を予測するのに利用できる。ここでは、現在利用可能な膨大なゲノムデータを活用した、シンプルで頑健な統計的アプローチを提供する。タンパク質のドメインを機能単位とみなし、問い合わせたドメインのゲノム近傍に有意に多く存在する他の機能単位(ドメイン)を探索することができる。この解析は異なる分類学的レベルにわたって行うことができる。また、非常に近縁な多数の株(例えば病原性株)に焦点を当てることが多いゲノム配列決定プロジェクトによる分類学的空間の不均一なサンプリングを補正するための規定を設けることもできる。この目的のために、亜分類群内の出現頻度を平均化するオプションの手順が用意されている。

いくつかの例から、このアプローチにより、未解決の遺伝子ファミリーに有用な機能予測を提供できること、また、この情報を他のアプローチとどのように組み合わせればよいかがわかる。この手法はウェブサーバー(http://bioinfo.sggw.edu.pl/neighborhood_analysis)として公開されている。

 

Documentation

http://bioinfo.sggw.edu.pl/news/

Usage

http://bioinfo.sggw.edu.pl/news/1/

 

webサービス

http://bioinfo.sggw.edu.pl/neighborhood_analysis/

解析するには最初にアカウントを作ってログインする必要がある。右上から登録できる。

 

解析には3つの方法がある。

1,遺伝子リストを指定 - 1つ目は、クエリは遺伝子リスト(IMG-JGI識別子、1行に1つ、例えば2264882819)を指定する。指定した遺伝子リストの全遺伝子の近傍領域が解析される。

遺伝子リスト、ジョブ名を指定して実行する(画像ではログイン前なのでLogin firstとなっている)。任意で解析するDNA鎖の設定、多重比較検定やその検定テストの閾値を設定できる。

 

example遺伝子リスト(先頭のみ)。

サブミット後は右上のTaskから管理する。ラボの他のツールと一緒に管理できるようになっている。一番上がProFaNA。

example遺伝子リストで試したが、エラーとなった。

 

2,Pfamドメイン名を指定 - クエリはPfamドメインで指定(Pfam ID、例えばPF02696) 

結果を属や科の分類学的レベルで平均化するか、平均化しない(all)で3つから選ぶ。

PFAM Domain as query (genera level)を選択した。

 

Pfam IDと属を指定する。他の項目は1と同様。

解析が完了すると、結果へのリンクがメールで通知される。

 

結果は表として提示される。GeneOntologyのアノテーションと、一致する有意に過剰発現しているドメインが示されている。このクエリでは、Uncharacterized ACR, YdiU/UPF0061 family、Fatty acid desaturase、Transcriptional regulatory protein, C terminalのP値がゼロとなっている。機能未知遺伝子についてはGene Ontologyの列は空白となっている。

CSV形式でダウンロードしてスプレッドシートアプリケーションで閲覧できる、

 

3,タンパク質配列を指定 - 相同なタンパク質の検索にはDIAMONDが使用される。選択されたカットオフ値で得られたヒットが集められ、その近傍が解析される。

タンパク質配列を入力する。

exampleタンパク質配列で試したが、ジョブがキューに登録されなかった。

 

論文より

  • 細菌では、局所的な再配列のためにオペロンとして分類することはできないが、共発現や共機能性を保持していることが多い。酵母、植物、哺乳類などの真核生物ゲノムでも、類似または関連した機能を持つグループへの遺伝子クラスタリングが起こる。
  • ゲノム中の共発現遺伝子の位置はランダムではない。例えば、タンパク質複合体のメンバーやシグナル伝達・代謝経路のエレメントなど、共通の生物学的機能に関与する遺伝子がゲノム内で隣接する傾向があることはよく知られている。したがって、原核生物ゲノム内の遺伝子groupingを調べることは、未特定遺伝子の機能を予測したり、タンパク質相互作用を予測したり、ゲノムが進化してきた事象を解析したりするための出発点となり得る。
  • ゲノム近傍の統計的有意性と生物学的関連性を評価する方法を開発することが課題である。ProFaNAは、クエリドメインをコードする遺伝子のゲノム近傍において、どのタンパク質構造/機能ドメインが有意に多くコードされているかを評価する。
  • ProFaNAはオペロンのような関係を予測することなく、物理的なゲノムの近接性にのみ着目し、偏りのない方法でゲノム近傍を解析している。
  • JGIのIMG/Mの88,754の細菌ゲノムコレクションが使用されている(https://img.jgi.doe.gov/)。
  • 近傍領域のサイズを各方向に5,000bp(ゲノム配列の10kbp)とすると、近傍領域全体で約10個の遺伝子に相当する。ほとんどのオペロン様機能単位は10遺伝子を超えないと予想されるが、このパラメータはユーザが変更することができる。
  • ProFaNAツールは、著者らの知る限り、数千のゲノムを含む原核生物のゲノム近傍を統計的評価を適用しながら大規模に解析できる唯一のツールである。

 

コメント

論文では機能未知の良く見つかるドメインだったり、機能既知のタンパク質へのProFaNAの適用例も示しています。読んでみて下さい。

引用

Protein family neighborhood analyzer—ProFaNA

Bartosz Baranowski and Krzysztof Pawłowski

PeerJ. 2023; 11: e15715. Published online 2023 Jul 21

 

関連

https://kazumaxneo.hatenablog.com/entry/2020/02/27/073000

 

https://kazumaxneo.hatenablog.com/entry/2024/01/18/003341

 

https://kazumaxneo.hatenablog.com/entry/2022/06/19/023905

 

https://kazumaxneo.hatenablog.com/entry/2021/04/07/073000