特殊な機能をコードする遺伝子の共局在は、微生物ゲノムに共通し、より大きな真核生物のゲノムにも存在する。重要な例として、薬用、農業用、工業用として価値のある特殊な代謝物(例:antimicrobials)を生産する生合成遺伝子クラスター(BGC)がある。BGCの比較解析は、公開ゲノムにおける分布やバリアントを明らかにすることで、新規代謝物の発見を支援する。しかし、遺伝子クラスタレベルの相同性検出は、アクセスしにくく、時間がかかり、解釈も困難である。
比較遺伝子クラスター解析ツールボックス(CAGECAT)は、全遺伝子クラスターの比較解析における困難を軽減するための迅速で使いやすいプラットフォームである。コマンドラインやプログラミングの専門知識を必要とせず、相同性検索やダウンストリーム解析を行うことができる。常に最新の結果を提供するリモートBLASTデータベースを活用することで、CAGECATは未知のクエリの比較、分類学的分布、進化を支援する関連するマッチを得ることができる。このサービスは拡張性と相互運用性があり、cblasterとclinkerパイプラインを実装し、相同性検索、フィルタリング、遺伝子近傍推定、結果のバリアントBGCの動的可視化を実行できる。可視化モジュールにより、ウェブブラウザから直接、出版物レベルの図をカスタマイズでき、BGCクエリ内の保存遺伝子を特定するための有益なオーバーレイにより、その解釈を大幅に加速できる。
CAGECATは、NCBIの継続的に更新されるゲノムの全領域の相同性検索や比較のために、標準的なウェブブラウザを介してインターフェイスできる拡張性のあるソフトウェアである。公開されているウェブサーバとインストール可能なDockerイメージはオープンソースであり、登録なしで自由に利用できる: https://cagecat.bioinformatics.nl.
Excited to have the CAGECAT project updated and in print: https://t.co/bxYOufIR0r Congrats to all involved! Matthias van den Belt @clmgilchrist @BoothThom @YitHengChooi @marnixmedema - Always great to have committed collaborators :) Check it out at: https://t.co/f8Sw5AnhV4
— Mohammad M. Alanjary (@mmAlanjary) May 3, 2023
tutorial
https://cagecat.bioinformatics.nl/tutorial
https://cagecat.bioinformatics.nl/にアクセスする。
CAGECATでは複数の遺伝子クラスター解析ツール(cblasterとclinker)を接続し、個々のツールの使用にあたって難しさを感じさせないオンラインデータ解析パイプラインを構築している。
トップページの「Start」ボタンをクリックすると解析が開始される。cblasterを試す。
cblasterはユーザーが指定したクエリから、NCBIなどのデータベースへの探索によって、保存されている遺伝子クラスターを見つけ、クラスタリングと可視化を組み合わせて結果を表示するツール。
(*)が付いている入力欄は必須
クエリのタンパク質配列のfastaファイルもしくはgenbank/形式のアノテーションファイル、もしくはHMMプロファイルを指定する(HMM検索ではPfam(InterPro)のHMMプロファイル識別子を指定)。exampleはNCBIに登録されているタンパク質のアクセッションIDを指定している。ヌクレオチド配列の識別子は現在サポートされていない。
探索対象の生物の属(負荷が高いため全ての生物を指定することは出来ない)、データベース、そのほかのパラメータを指定してランする。
出力例(example output)
画像は自由に拡大、スクロールできる。色付きのボックスが相同性のある遺伝子を表す。色の濃さは配列同一性の高さを表す。結果はクラスタリングされて表示されている。画像では、上の6つか7つの生物でよく保存されている遺伝子であることが分かる(上から2つ目〜4つ目は完全保存)。
結果を見て、さらに追加で解析を行うことができる。
Gene neighbourhood estimationの結果
(マニュアルより)最も重要なパラメータはMaximum Intergenic Gapで、これはクラスタ内の2つのヒットが互いにどのくらい離れているか(塩基対で)を決定するものである。このパラメータはデータセットによって大きく異なる可能性がある。例えば、細菌または真菌の二次代謝産物遺伝子クラスターでは、遺伝子は通常非常に近くに存在するため、低い値を使用できる。逆に植物クラスターでは、重要な遺伝子が染色体全体に広がっている可能性があり、より高い値が必要になる。そのため、このGene Neighbourhood Estimationモジュールが実装されている。Gene Neighbourhood Estimationの結果によって、このパラメータを較正することができる。
clinkerも同じようにして使用できます。
Inputで比較したいgenbankファイルを指定する。
出力例(example output)
マニュアルより
- 必須ではないが、メールアドレスを記載しておくとジョブ終了時にメールで通知する機能が利用できる。
- 実行されたジョブはCAGECATのサーバーに30日間保存される。
引用
CAGECAT: The CompArative GEne Cluster Analysis Toolbox for rapid search and visualisation of homologous gene clusters
Matthias van den Belt, Cameron Gilchrist, Thomas J. Booth, Yit-Heng Chooi, Marnix H. Medema & Mohammad Alanjary
BMC Bioinformatics volume 24, Article number: 181 (2023)
関連