macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

オルソログデータを探索・可視化する統合プラットフォーム OrthoVenn3

 

 比較ゲノム研究の進歩により、種の進化や遺伝的多様性を研究することに関心が高まっている。この研究を促進するために、OrthoVenn3は、ユーザーが効率的にオルソログクラスターの同定とアノテーションを行い、さまざまな種にわたる系統関係を推論できる強力なWebベースのツールとして開発された。OrthoVennの最新のアップグレードでは、オルソログクラスターの同定精度の向上、多数のデータセットに対する可視化機能の向上、系統解析のラップ化など、いくつかの重要な新機能が追加された。さらに、OrthoVenn3では、遺伝子ファミリーの縮小・拡大解析により、遺伝子ファミリーの進化史の理解を深めるとともに、共線性解析により保存・可変ゲノム構造の検出が可能になった。直感的なユーザーインターフェースと堅牢な機能を備えたOrthoVenn3は、比較ゲノム研究のための貴重なリソースとなる。このツールは、https://orthovenn3.bioinfotoolkits.net で自由にアクセスできる。

Documentation

https://orthovenn3.bioinfotoolkits.net/document

 

webサービス

https://orthovenn3.bioinfotoolkits.net/にアクセスする。

最新バージョンでは、オルソログクラスターの同定精度の向上、大規模データセットに対する可視化機能の向上、系統解析ツールの追加など、いくつかの重要な新機能が追加されている。ちなみに右上のスイッチからダークモードにできる。

 

quick Startを試す。quick Startは内蔵データベースから種データを追加し、追加した種間でオルソログ遺伝子を探索することができる。

脊椎動物(164種)、メタゾア(107種)、原生生物(90種)、真菌(139種)、植物(92種)、バクテリア(141種)を幅広くカバーしている。オンライン版の比較解析では12種までサポートしている。OrthoVenn3ローカル版では種数制限なく解析が可能(マニュアルより)。

 

上のタブからMetazoaに切り替えた。

(まだ下にスクロールできる)

 

Vertebrates

(まだ下にスクロールできる)

 

Plants

(まだ下にスクロールできる)

 

クリックすると追加され、右上に登録される(最大12種)。

 

手持ちの配列を加えるには左上からUpload Fileに切り替え、タンパク質ファイルを選択する。

タンパク質配列ファイルは、Fasta形式(.fasta)または圧縮Fasta(.fasta.tar.gz、.fasta.zip)でなければならない。

 

種を選択後、右のメニューからパラメータやソフトウェアを選ぶ。E値カットオフ、マルコフクラスタリングアルゴリズムを用いてオーソロガスクラスタを生成する際に使用するInflation値、アノテーションを付けるかなどを指定できる。

3つの解析をサポートしている。

マニュアルの説明

1、系統解析;FastTree2を用いて最尤法による系統進化樹を構築する。系統解析は3つの進化モデル: JTT+CAT、WAG+CAT、LG+CAT、をサポートしている。各ノードの信頼性を判定するためにSHテストが使用され、デフォルトで生成されるツリーファイルはNwk形式である。解析結果ファイルはダウンロードモジュールで入手できる。

2、共線性解析;2つの生物種間で遺伝子がcolinearであるかどうかを判断するために、その配列の類似性を比較し、これらのcolinearな遺伝子を構成する領域をcolinear blocksと呼ぶ。これは、研究者が染色体の再配列や進化を理解するのに役立つ。Orthovenn3では、collinearityの解析と可視化をサポートしている。それにはタンパク質のgffアノテーション情報をアップロードする必要がある。タンパク質配列ファイル(fasta)のタンパク質IDとアノテーションファイル(gff)のタンパク質IDが一致していることが重要で、一致していない場合、共線性解析は失敗する(遺伝子アノテーションフォーマットを変換するためのPythonスクリプト( gff_to_bed.py )を提供しており、)。

3、Gene family contraction and expansion analysis;種の進化・発展に伴ってどの遺伝子ファミリーの数が変化したかを解析し、変化した遺伝子ファミリーの機能をアノテーションすることで、進化過程における種の変化を調べる。CAFE5では、種の遺伝子ファミリーのサイズと進化時間の外挿から、遺伝子ファミリーの拡大・縮小を推定する。
ユーザーは少なくとも1組の種の発散時間をアップロードする必要がある。まず、species1 と species2 の名前を選択する。OrthoVenn3は、Auto Searchボタンをクリックすることで、種1と種2間の乖離時間の自動照会と記入をサポートし(注:データはTimeTree5から取得)、また手動照会記入をサポートしている。ユーザーが種間の複数の発散時間ノードを指定したい場合、プラス記号をクリックして新しい種ペアの発散時間を指定する。

 

STARTをクリックするとジョブが追加される。

 

終わるまでしばらく時間がかかる。

progress (%)が中央に表示されていて参考になる。結果は7日間サーバーに保存される。メールアドレスを入力しておくと、ジョブが終了したときに結果へのリンクが送信される。

 

出力例

結果はUpSetプロットやベン図、棒グラフなどで表示される。

 

UpSet プロットは、各生物種におけるオルソログクラスターの数、および生物種間でユニークな相同遺伝子クラスターと共有される相同遺伝子クラスターの数を表示している。UpSetテーブルのノードをクリックすると、個々のオルソログクラスターのGOタームアノテーションにアクセスできる。

=================================================================

補足

OrthoVenn3ではオルソログのクラスタを定義する。下の写真のような状況で、例えば緑のゲノムにしかないタンパク質は1となっているわけではない点に注意する。どのタンパク質とも無関係なタンパク質は画面の右端のsingletonという部分に表示されている。下の写真の緑の1は、緑の生物だけに存在するクラスタ(パラログかもしれない)が1クラスタ見つかったという意味。

そのような時は、数値をクリックしてエンリッチメント解析のページにジャンプし、そのクラスタをクリックすれば、グラフレイアウトのページに再度ジャンプする。そのページでどのような地震のどのようなタンパク質間でクラスタリングされているのか確認できる。

=================================================================

 

 

ペアワイズヒートマップ

 

上で説明した1、2、3の解析を1つ以上選択していた場合、上部のタブから1、2、3の結果を閲覧できる。

phylogenic analysis

 

Gallaryからはいくつかの解析済みの結果を閲覧できる。

(dark mode)

 

植物では以下の種の結果が閲覧できる。

Oryza nivara
Oryza meridionalis
Triticum spelta
Triticum turgidum
Secale cereale
Oryza sativa

 

collinearity analysis

(マニュアルより)OrthoVenn3では、染色体上の複数の遺伝子を同時に検索・表示することができるため、遺伝子とその染色体上の分布領域の共線関係を見ることが出来る。共線性の解析は、遺伝子ファミリーの拡大やトランスポゾンの挿入など、ゲノムの構造や組成の変化を検出・比較することができるため、進化研究において極めて重要である。本ツールでは、MCScanXプログラムを利用して、異なる種の染色体間のコリニアリティを同定する。この手法により、様々な種の染色体の構造と構成を比較することができ、進化的関係の理解や染色体再編成と進化の推測に役立つ。さらに、OrthoVenn3では共線性を表示するために、Global scaleとin-species scaleという2つのスケーリングモデルを用意している(上の画像はin-species scale)。Global scaleは、種間の染色体長の割合に基づき、類似した染色体長のcollinearityを表示するのに適しており、in-species scaleは、種内の染色体長の割合に基づき、染色体長のコリニアリティを表示している。このスケーリングモデルにより、異なる種間の染色体長の違いによる視覚化効果の不調和を回避し、視覚化結果の質の向上につながる。

 

 

Gene family contraction and expansion analysis

(マニュアルより)遺伝子ファミリーの縮小・拡大解析により、異なる生物種間の進化的関係や遺伝子ファミリーの進化史に関する知見を得ることができる。遺伝子ファミリーの縮小・拡大の計算には、CAFE5(https://github.com/hahnlab/CAFE5)プログラムが使用されている。遺伝子ファミリーの数の変化は、収縮した遺伝子ファミリー数(紫)と拡大した遺伝子ファミリー数(青)の円グラフで表現されている。これによって遺伝子ファミリーの進化や種間の差異を直感的に理解できる。

 

上のボタンをクリックすることでチャートの色や大きさをカスタマイズすることができる。

数が変化した遺伝子ファミリーのGO termアノテーションをサポートしている。数が変化した遺伝子ファミリーの番号をクリックすることで、機能アノテーション情報を閲覧できる。

 


GO termアノテーションを見るにはパイチャート下の数値部分をクリックする。

注;クリック時、+と-は区別されていない。

 

するとGO termアノテーションのページに移動し、右端のGO enrichmentのタブで過剰に出現した語彙があるのかどうか結果を閲覧する事ができる。

 

INSTALLATIONではdockerを使ってローカルマシンでOrthoVenn3をホストする手順が説明されています。ローカル版では種数制限がないので、大規模なデータセットの解析に推奨されています。興味がある方は確認してみてください。

https://orthovenn3.bioinfotoolkits.net/install

引用

OrthoVenn3: an integrated platform for exploring and visualizing orthologous data across genomes 
Jiahe Sun, Fang Lu, Yongjiang Luo, Lingzi Bie, Ling Xu, Yi Wang
Nucleic Acids Research, Published: 28 April 2023

 

関連