macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

縮小アミノ酸アルファベットを用いたタンパク質構造の3次元可視化と解析のウェブサーバ RaacFold

 

 タンパク質構造はDNA構造よりも複雑で多様であり、通常、機能、相互作用、生物学的注釈の解釈に影響を与える。Reduced amino acid alphabets (Raaa) は、タンパク質の複雑さを軽減し、機能的に保存された領域を同定する強力な能力を示す。RaacFoldは、58の還元法に基づく687のreduced amino acid clusters (Raac) を提供し、3つの解析ツールを提供している: Protein Analysis、Align Analysis、Multi Analysisである。Protein AnalysisとAlign Analysisは、物理化学的類似性と計算生物学的戦略に従って配列-構造を簡略化した表現を提供する。簡略化された表現により、タンパク質の構造をより簡潔かつ明瞭に見ることができ、縮小されていない構造よりも生物学的な洞察を得ることができる。したがって、人工タンパク質の設計がより便利になり、冗長な干渉が回避される。さらに、Multi Analysisにより、タンパク質の構造と機能の進化における生物物理学的な変異と保存を調べることができる。これはパラログの非相同機能の同定と探索に重要な情報を提供する。同時に、RaacFoldは、配列、構造、および関連する注釈のための高度なパラメータを備えた強力な2Dおよび3Dレンダリング性能を提供する。RaacFoldはhttp://bioinfor.imu.edu.cn/raacfoldで利用できる。

 

help

http://bioinfor.imu.edu.cn/raacfold/#/help

 

RaacFoldは、Raacを用いることで、類似した性質や構造ドメインを持つアミノ酸を2Dと3Dで同時に表示することができる。これによって生命アルファベットをより簡潔かつ明瞭にする。

20個前後のアミノ酸をいくつかの類似したルールに基づいて小さなアルファベットにクラスタリングすることで、タンパク質の複雑さは劇的に減少し、いくつかの機能保存領域がより明確に表示されるようになる。複雑さを縮小したアミノ酸を使って解析することで、一次配列とその立体構造との相関を明確に見つけることができる(pubmed)。

 

webサービス

http://bioinfor.imu.edu.cn/raacfold/#/ にアクセスする。

Protein Analysis、Align Analysis、Multi Analysisの3つの解析ツールがある。

 

ProteinAnalysisでは指定したタンパク質の縮小されたアミノ酸スキームでの構造と配列を閲覧できる。

現在はchargeスキーム。KとRが正の荷電、DとEが負の荷電、残りは中性のルールで縮小表現されている。ClusterからHを正の荷電に変更できる。

 

構造を閲覧したい構造は、左上のパネルからタンパク質名、IDなどで検索できる。画像ではAlphafold DBから全生物を対象にmyosinを検索している。

 

Raac縮小スキーム、縮小クラスターを選択できる。

 

 

Raac縮小スキームによってできる各クラスターについて、色をカスタマイズできる。

 

右下のパネルでは、どのアミノ酸がどのクラスターに割り当てられているか確認できる。下の写真では、I(赤色)にILMFWYVが、A(灰色)に残りのアミノ酸が割り当てられている。

 

下の配列パネルでは、縮小されたアミノ酸と20個のアミノ酸の対応、さらにDomain、Region、Helix、Turnの領域が確認できる様になっている。

Confidence scoreは予測の信頼性を表す。縮小アミノ酸の最初の文字は色がついている。色は構造パネルのモデルの色と対応している。

 

特定の領域の残基を選択して視覚化方法を強調できる。下のパネルで強調したい領域の配列をドラッグで囲む。左下のパネルにその領域が表示される(3 - 26)。

 

左下のパネルでは、選択した領域の色を変えたり、

 

選択した領域の構造レンダリングパラメータを変更できる。Hyperballに変更した。

サーフェスやボリューム(分子サーフェスガウスボリュームなど)、二次構造(カートゥーン、リボン、トレースなど)、原子(ボールスティック、スペースフィル、ポイントなど)など。

 

左のパネルのStructureでは、全体の表示を変更したりアニメーション表示できる。全体の表示をRibbonに変えた。

 

アニメーションONだと回転表示になる。

 

複数の領域を選択するには、配列パネルの上にあるMultiple RegionをONにする。この状態で選択していくと、左のパネルに領域が追加されていく。領域ごとに視覚化方法を変えたり非表示にしたりできる。

 

Align Analysis

2つ目のAlign Analysisでは、1つまたは複数の未アラインメント配列を含むタンパク質配列を指定して、シークエンスアラインメントから縮小されたタンパク質配列、構造、機能注釈を得ることができる。

exampleをONにしたところ。複数の配列が表示されている。

 

アラインメントパラメータやデータベースを選択する。

Analysisをクリック。

 

出力例。テスト時は10秒ほどで結果が表示された。MultiAnalysisとAlignAnalysisの配列パネルでは、Qeuryがユーザの配列、Naturalがクエリ配列とマッチしたデータベースの配列のnaturalアミノ酸配列を示している。

 

 

Multi Analysis

3つ目のMulti Analysisでは、複数の多重整列アラインメント(MSA)を入力とする。研究者は、減少したモチーフ、配列、構造、また、より明確な相同配列、進化的に保存された部位、変異部位などを見つけることができる。

複数の配列に存在するバックグラウンドノイズのため、保存された信号と表示品質が悪化する可能性がある。そのため、保存領域を十分に含むマルチプル配列アライメント(MSA)を使うことが推奨されている。

 

パラメータやDBの設定

出力例。配列パネルの上にシークエンスロゴ(aacLogo)が追加されている。Conservative scoreは情報エントロピーを示す。

 

論文より

  • naturalアミノ酸のアルファベットは複雑であるため、タンパク質の配列や構造における保存的特徴の同定が不明瞭になる可能性がある。類似した生化学的性質、原子配列、頻度分布を持つnaturalアミノ酸は、より小さな縮小アルファベット群で表現することができ、ノイズ信号に隠れた保存的特徴を捉えるのに十分な能力を持つ。
  • RaacFoldの強力な特徴の1つは、散在部位を機能領域にマッチさせることにより、パラログの機能分化を実証できることである。一般に、ある残基が他の類似したアミノ酸で置換された場合、タンパク質の活性が劇的に変化することは考えにくい。逆に、正電荷負電荷に変わったり、酸が塩基に変わったりするような、残基部位の特性の破壊的な変化は、タンパク質の機能分化につながる可能性がある。従って、パラログのアミノ酸アルファベットを同じ方法とパラメーターで縮小させると、異なる領域は配列と構造の非相同機能の生成をある程度反映することができる。(論文では構造が類似しているが結合分子が異なるパラログを例に、縮小アミノ酸表現において、結合部位に電気的に中性なアミノ酸が集まっているか、正電荷を帯びていて、負電荷を帯びている分子との結合に有利になっているかを議論している)

 

置換行列とクラスタ数、原著論文の表はRAACBookのテーブルが詳しい様です。

http://bioinfor.imu.edu.cn/raacbook/public/Browser

引用

RaacFold: a webserver for 3D visualization and analysis of protein structure by using reduced amino acid alphabets 
Lei Zheng, Dongyang Liu, Yuan Alex Li, Siqi Yang, Yuchao Liang, Yongqiang Xing, Yongchun Zuo
Nucleic Acids Research, Volume 50, Issue W1, 5 July 2022, Pages W633–W638

 

Raacの手法は、タンパク質配列を簡略化するモチーフ解析サービスRaacLogoにも応用されている。

http://bioinfor.imu.edu.cn/raaclogo/public/