macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

近傍した遺伝子の大規模解析、比較、可視化を行う AnnoView

 

 遺伝子近傍の解析と比較は、微生物ゲノムの構造、機能、進化を探索するための強力なアプローチである。ゲノムの可視化や比較のためのツールは数多く存在するが、大規模なゲノムデータベースやユーザーが作成したデータセットを横断してゲノムを探索することは依然として困難である。ここでは、細菌および古細菌の生命樹にわたる遺伝子近傍をインタラクティブに探索するためにデザインされたウェブサーバーAnnoViewを紹介する。本サーバーは、包括的なGTDBとAnnoTreeデータベースとの統合により、30,238の細菌ゲノムと1,672の古細菌ゲノムから興味のある遺伝子近傍を同定、比較、可視化する機能をユーザーに提供する。同定された遺伝子近傍は、KEGG、Pfam、TIGRFAMなどの異なるソースから事前に計算された機能アノテーションを用いて可視化したり、類似性に基づいてクラスタリングできる。また、ユーザーはGBK、GFF、CSV形式のカスタムゲノムデータセットをアップロードして探索したり、比較的小さなゲノム(ウイルスやプラスミドなど)用のゲノムブラウザとしてAnnoViewを使用することもできる。最終的には、AnnoViewがゲノムデータのユーザーフレンドリーな検索、比較、可視化を可能にすることで、生物学的発見を促進することを期待している。AnnoViewはannoview.uwaterloo.caで利用できる。

 

FAQ

http://annoview.uwaterloo.ca/annoview/FAQ

 

HPより

AnnoViewはゲノムの可視化と遺伝子近傍探索のためのオンラインツールです。AnnoViewは、数百の生物種にわたる関連遺伝子近傍の可視化を容易にし、遺伝子組成に基づいて近接遺伝子をクラスタ化し、興味のある遺伝子や機能を見つけ、カスタムまたは事前に計算されたメタデータによって遺伝子を着色します。独自のゲノム領域(.gbk、.gff、または.csvファイル)とカスタムメタデータ(遺伝子アノテーションなど)をアップロードするか、30,000以上の細菌および1,600以上の古細菌ゲノムから抽出したAnnoTreeデータベースからゲノム領域のサブセットを探索し、その後プロットをカスタマイズして出版物品質の画像としてエクスポートします。

 

webサービス

http://annoview.uwaterloo.ca/annoview/にアクセスする。

 

Examples

3つの例が紹介されている。

1,GTDBデータベースから目的の遺伝子/タンパク質を検索する。McrAタンパク質の配列を古細菌データベースに対してE-value=0.00001、coverage threshold=50%。最終ヒットはMethanosarcina属のヒットに限定して絞り込んだ。

2,NCBI由来の遺伝子近傍のカスタムデータセットをアップロードする。ガンマプロテオバクテリアのSlr4(Ali et al., 2020によって発見されたS-layerタンパク質の一種)遺伝子を囲む遺伝子近傍領域を可視化した。遺伝子近傍情報はGithubにあるようにNCBIデータベースから抽出している。

3,大規模配列(コンティグ、プラスミド、ウイルスゲノム、細菌ゲノム)の可視化。真核生物などの大きなゲノムはサポートしていないが、小さなゲノムやゲノム領域の可視化には対応している。ベータコロナウイルスのゲノムのアラインメント、Clostridium tetaniのゲノムとプラスミドをAnnoViewで探索した(ボタンが2つあり選べる)。

 

 

1の例を簡単に見てみます。

遺伝子クラスターが表示された。トラック1つが1つの株(ゲノム)で、矢印のボックス1つ1つがORFを表している。

これは保存された遺伝子の例なので良く並んでいるが、ピンチして引っ張ることでトラックそれぞれ左右にスライドできる。

 

上のボタンから画像のサイズを調整できる。遺伝子近傍領域をCSV形式でダウンロードするボタンもある。

 

ダウンロードしたCSV

 

右上のTaxonomy labelボタンから分類群のラベルをGenusに変更した。

 

右上のchange display metadataからORFのカラーリングをPfamベースに変更した(デフォルトはKEGG)。

カーソルを合わせると遺伝子の情報が表示される。また、ORFの選択はメタデータのカラーリングに基づいている。どれかORFをクリックすると同じカラーのORFが赤い枠でハイライトされる。

(同時に複数の色を選択可能)

 

ORF上で右クリックするとメニューが表示される。

 

右クリックで表示されるメニューのshow protein sequenceを選んで配列を表示した。

 

show annotation detailからアノテーションの詳細を表示した。

 

Add to legendでレジェンドにメタデータの情報を追加した。

図をダウンロードする前に追加しておく必要がある。

 

右クリックで表示されるメニューから色も変更できる。

 

左端のメタデータをクリックするとトラックを削除できる。

 

一番左端の小さな白色の上下矢印をドラッグするとトラックの上下の順番を変更できる。

 

 

自分の関心があるタンパク質から種間で近傍に保存されている遺伝子を探索するには、TOPページからSearch GTDBを選択する。

タンパク質配列を貼り付けてSearchで検索開始。

 

検索にはしばらく時間がかかる。

しばらく待つとtaxonomy(GTDB)を選択する画面に切り替わる。ここで選択した分類のクエリ遺伝子近傍が可視化される。

この配列(オペロンを構成するものもある)の場合、いくつかのgenusでは隣接するORFのKEGGアノテーションが一致していたが、属によっては全く一致していないことが分かった。

 

自分の用意したアノテーションを視覚化することもできる。TOPページのupload datasetを選択する。

ファイルをアップロードする(.gbk、.gff、または.csvファイル)。複数比較したいならその分だけファイルをアップロードする。

 

高度なカスタマイズ(HPより)

  • 目的の遺伝子の右クリックメニューからセンタリングオプションを選択することにより、新しい遺伝子上で可視化をセンタリングできる。個々のトラックをクリックしてドラッグし、好みの位置に再調整したり、トラックを反転させ、互い違いの方向で表示できる。
  • Annotreeとの接続 - 27,000を超える細菌および1,500を超える古細菌ゲノムから抽出されたAnnotreeデータベースからゲノム領域のサブセットを探索できる。

コメント

バクテリアアーキア)とタイトルにつけていましたが、配列とメタデータを用意すればウィルスなどにも対応するので削除しました。

引用

AnnoView enables large-scale analysis, comparison, and visualization of microbial gene neighborhoods
Xin Wei, Huagang Tan, Briallen Lobb, William Zhen, Zijing Wu, Donovan H Parks, Josh D Neufeld, Gabriel Moreno-Hagelsieb,  Andrew C Doxey

bioRxiv, Posted January 16, 2024

 

関連

https://kazumaxneo.hatenablog.com/entry/2019/10/29/143024