2019年の論文より
すでに200種以上の植物のゲノム配列が発表されており、シーケンス技術の進歩により、この数は急速に増加すると予想されている。新しいゲノムが構築され、遺伝子が同定されると、オントロジーを用いてその推定翻訳産物であるタンパク質の機能アノテーションを行うことが、シーケンスデータを生物学的文脈に位置づけるという意味で重要である。さらに、ゲノム配列の迅速な作成に対応するためには、この機能アノテーションプロセスを完全に自動化する必要がある。ここでは、MapMan4フレームワークと、関連するオンラインMercatorアノテーションツールの改訂版を紹介する。オリジナルのMapManと比較して、新しいオントロジーはほぼ3倍に拡張され、より厳しい割り当てルールが適用されている。このフレームワークはMercator4に組み込まれ、陸上植物グループ全体の最新の知識を反映するようにアップグレードされ、比較的に高い品質で全ての胚葉のタンパク質アノテーションを提供する。アノテーションプロセスは最適化され、植物ゲノムのアノテーションが数分でできるようになった。出力結果はMapManデスクトップアプリケーションと互換性がある。
MapManは昔からよくポスターや論文に使われていますね。ここではMercator4について紹介します。
https://www.plabipd.de/mercator_main.htmlにアクセスする。現在のバージョンはリリース6(2023年10月)となっている。
Mercator4は、陸上植物(顕花植物、シダ植物、スギナ、コケ植物、肝臓植物、ツノゴケ植物など)のタンパク質配列に機能アノテーションを付与するオンラインツール。Mercator4は、緑藻間で高度に保存されたタンパク質のアノテーションも行うことができる。
塩基配列またはタンパク質配列のテキストファイル(FASTAフォーマット)を指定する。ここではdemoを選択した。
オプションで、ジョブ名と、ジョブが完了したときに通知するための電子メールアドレスを記入する。
ジョブが完了するまでしばらく時間がかかる。
出力例
結果の概要が表示される。
何個のタンパク質配列がアノテーションと分類に成功したかの簡単な統計と、リファレンス長との差に基づく各カテゴリのタンパク質長の分布を表示する棒グラフが表示される(各リファレンス長は〜250種以上の陸上植物から得られたマッチするタンパク質の長さの中央値)。
TreeViewerタブでは、アノテーションされたコンテキストの記述を枝、タンパク質のカテゴリを葉とする階層ツリーとしてタンパク質のカテゴリー化を可視化できる。使用するには、ジョブ名にチェックを付ける。画像では”Job3807”
それかツリーの画像の存在するか興味がある分類にチェックを付け、ツリー下のshow checked ~をクリックする。すると右側の各機能カテゴリごとのアサインに反映される。ここではコケとイネにチェックを付けて、右側のphosynthesisを展開した。
カーソルを合わせるとIDが表示される。下の画像ではLHCb5の左側の4(コケ)にカーソルを合わせている。
ボックスは、左の2つがツリービューでチェックを付けた2つの植物、右端の赤いボックスがアノテーションされたタンパク質。
左端のボックスの色は以下に対応している。
少し重くなるが全部にチェックを付けても動作する。
HeatmapViewerタブでは2つのタンパク質セットを比較できる。
タンパク質カテゴリー毎に、色分けしたスポットとして比較結果を表示する。
使用するには、リファレンスと、それに対して比較したい植物種を選択する。もちろん自分のジョブを選択することもできる。最後にShow protein comparison on heatmap ボタンをクリックする。
スポットにマウスオーバーすると、タンパク質のカテゴリーとそのコンテキストの説明がポップアップ表示される。
スポットの色は、そのタンパク質カテゴリーが片方または両方のタンパク質セットに存在するかどうか、また、片方のタンパク質セットにそのタンパク質カテゴリーに割り当てられたタンパク質が多いか少ないかを示している。
さらに、スポットの背景色が緑または青である場合は、対応するタンパク質が非核コードであることを示す。
ローカルコンピューターでの処理('mercator4_result.zip'と'mercator4_result_data_fasta.zip')
MapManデスクトップアプリケーションでの使用 ('mercator4_result.zip')
オンラインMercator4濃縮解析での使用('mercator4_result.zip')
タンパク質アノテーションは2つのインタラクティブなオンラインツールで可視化することもできます。
アノテーションされたfastaファイルがダウンロードできる。
マップファイルもダウンロードできる。
サブミットしたタンパク質をMercator4タンパク質カテゴリー(BIN)にマッピングした結果のファイルとなっている。
左のメニューからは、オンラインMercator4エンリッチメント解析を実行できる。この機能では、Mercator4タンパク質カテゴリー(BIN)の全セット内で統計的なアプローチを使って過剰または過小に発現しているタンパク質クラスを同定する。
使用するには、Mercator4マッピング結果ファイルをアップロードし、興味のある遺伝子のリストとバックグラウンド遺伝子のリストを入力する。上の画像はdemoの結果を示している。結果の表には、選択した検定とFalse Discovery Rate (FDR)のカットオフでの、過剰に変動したリストがカテゴリごとに示されている。
その他
- 標準的な植物プロテオームでは、タンパク質配列の約55%から60%がMercator4で分類できる。
- Mercator4の階層的フレームワークは定期的に更新・拡張されている。最新バージョンのMercator4の使用が推奨されるが、レガシーバージョンのMercator4も左のメニューから利用できる。
引用
MapMan4: A Refined Protein Classification and Annotation Framework Applicable to Multi-Omics Data Analysis
Rainer Schwacke, Gabriel Y. Ponce-Soto, Kirsten Krause, Mark Stitt , Marie E. Bolger, Björn Usadel, Show all authors
Mol Plant. 2019 Jun 3;12(6):879-892
参考
https://www.gabipd.org/projects/MapMan/MapManGuide.pdf