OrthoVenn2 - macでインフォマティクス

注意　2019 6/24 追記 6/25 編集

すでに比較されているデータについては問題ありませんが、手持ちのmulti-fsstaをアップロードして調べる場合、シングルラインのfastaににしておかないとそれぞれのfastaの先頭行のみ使ってしまうようです。以下のperl スクリプトでmuliti lineからsingle lineのmulti-fastaに変換し、それからuplodするようにして下さい。

perl -pe '/^>/ ? print "\n" : chomp' input.fasta | tail -n +2 > output.fasta

*1より。テスト済み。先頭に空行ができるのでtailで除去。

6/25追記

オーサーから連絡をいただきました。ヘッダーのファイル名が短い場合問題ないとのことです（未確認）。心配な方は、小さなデータでテストし、オロソログクラスター分析ウィンドウでマルチプルアラインメントかfasta ダウンロードを実行して下さい。全配列が表示されていれば大丈夫です。

相同遺伝子（Homologous genes）は、主に２つのクラス、オルソログおよびパラログに分類できる。オルソログ遺伝子は、種分化イベント中の共通の祖先から発生し（ref.1）、通常、近縁種間ではsyntenicになる。パラログも共通の祖先を共有しているが、種内のシーケンス重複イベントから発生し、しばしば限られたシンテニーとより種分化関連の分岐を示している。複数の種のオルソログ遺伝子が高い配列類似性を示す場合、それらが類似の生物学的機能を実行し続ける可能性がある（ref.2）。一方、他の種との相違が大きいオルソログは、異なる機能を実行する可能性が高い（ref.2）。最近の数十年で、オルソログ遺伝子の同定およびそれらの間の類似性の程度の確認は、遺伝子およびゲノムの進化を理解するための比較ゲノム研究における2つの重要なステップになった（ref.3）。シーケンシング技術の革新は、様々な生物種からのシーケンシングデータを膨大かつ急速に生み出し（ref.2,4,5）、そしてオルソログ遺伝子同定およびそれらの機能を探索する能力を可能にするツールに対する需要が高まっている。

オルソログクラスターを同定する２つの基本的な方法が開発された。 1つ目はツリーベースで、ソフトウェアPhyloTreePruner（ref.6）やTreeFam（ref.7）などのいくつかのツールはこの戦略を採用している。二つ目はグラフベースで、この方法論はPanOCT（ref.8）、OrthoFinder（ref.9）、OrthoMCL（ref.10）、COCO-CL （ref.11）、OrthoDB（ref.12）、OMA（ref.13）そしてRoary（ref.14）を含む。ツリーベースとグラフベースのアルゴリズムは多くの点で異なり、それぞれ独自の利点を持っているが、現在のツリーベースのアルゴリズムは一般的に大量の遺伝子やゲノムを構築するには計算コストが高く、このようなアプローチは難しくなる。大きな進化距離を持つ大規模データセットに対するオルソロガス解析のためのグラフベースのアプローチよりも適用可能である（ref.3）。これらの理由のために、OrthoVennとOrthoVenn2の両方とも、大きなデータセットを自動処理することにおいて有用性が実証されているグラフベースの方法を採用した（ref.3）。

　OrthAgogue（ref.15）、Ortholog-Finder（ref.16）、Orthograph（ref.17）、PorthoMCL（ref.18）およびProteinOrtho（ref.19）を含むオルソロガス遺伝子の同定および比較のためのほとんどのアプリケーションは、Linuxベースのシステムで使用するため開発された。この機能はパワー、スピード、そして汎用性に貢献するが、潜在的なユーザーのプールはLinux OSに特定の精通度と知識を持っている研究者に制限している。この問題に対処するために、最近、OrthoInspector（ref.20）、Family-Companion （ref.21）、Orthonome（ref.5）、PhosphOrtholog（ref.4）、Hieranoid（ref.22）、およびMorFeus（ref.23）など、ますます多くのウェブベースのオルソロジー検出および比較ツールが開発されている。しかしながら、これらのツールの大部分はオルソログクラスターを視覚化する能力を欠いており、この能力を有するORCAN（ref.24）は、複数のゲノムからの大きなデータセットの比較をサポートする比較的初歩的な視覚化能力を持つ。

以前に、本著者らは2015年のNucleic Acids Research（ref.25）に高速ウェブサーバーベースのツール、OrthoVennを発表した。このツールは多くの研究で使用され引用が増え続けており、60カ国以上からの何千ものユーザーが所有するデータセットを分析するためにOrthoVennを使用している。OrthoVennは、発表以来150回以上引用されている。

ここでは、ユーザーと比較ゲノム研究者のより広いコミュニティからの要求に基づいて、OrthoVennツールの最新情版を報告する。今回のアップデートでは、最大12種類のバクテリア、真菌、原生生物、後生動物（前のバージョンの6からの増加）に対してユーザーが全ゲノム比較を行えるようにする新しい機能を実装した。上記の他の種類の生物と比較して植物や脊椎動物のゲノムサイズが比較的大きいため、これら2つの真核生物グループ内で作業する場合、ユーザーはゲノム比較には最大8種まで選ぶことができる。スピードを向上させるために、クレード内の関連種間のアラインメントはすでに計算されており、WebバージョンのOrthoVenn 2に含まれている。遠近種間の事前計算と調整は著者らのサーバーのデータ量を大幅に増加させる。現在のWeb版のOrthoVennでは、ストレージ要件と計算効率のため、クレード内の種を比較している。遠くの種（異なるkingdomsの種など）間の比較はサポートされていない。クロスkingdom比較を容易にするために、より一般的には多数の種の処理と視覚化のために、ユーザーはOrthoVennへの入力として他のソフトウェアから独自のユーザー生成クラスタリングデータセットをアップロードするか、スタンドアロンバージョンをダウンロードして自分のサーバー上で使用できる。さらに、OrthoVenn2のデータの視覚化および解釈機能を大幅に強化した。 OrthoVenn2は引き続きすべてのユーザーに公開されており、https://orthovenn2.bioinfotoolkits.netでWebサービスとして自由に利用できる。 OrthoVenn2の入力データはfastaフォーマットのタンパク質配列で、出力は情報とダウンロード可能なコンテンツが追加されたインタラクティブな出現パターン表とベン図である。その有用性を実証するために、著者らはランダムに8つのStreptomyces種を選択し、OrthoVenn2を使ってオルソログ遺伝子の比較分析を行った。結果については、後述の「サンプルと結果の分析」のセクションで説明する。

データベース

Ensemblデータベース（2019年1月リリース）からタンパク質配列をダウンロードし、以前のパイプラインに従ってそれらをOrthoVenn 2に組み込んだ（ref.25）。このデータセットは142の脊椎動物、71の後生動物、65の原生生物、94の真菌、57の植物と111の細菌種を含む。OrthoVenn2に存在するタンパク質配列の総数は8858566である。全体として、OrthoVenn2のタンパク質データベースは前のバージョンのサイズの4倍ある。タンパク質クラスターのアノテーションは、以前に記載されているように（ref. 25, 27）、UniProt（2019年1月公開）の非冗長タンパク質データベースからDIAMONDを使って行った。（以下略）

Help

https://orthovenn2.bioinfotoolkits.net/help

OrthoVenn1

web版の使い方

OrthoVenn2はFirefox 22以降、Chrome 29以降、Safari 5.1以降、Opera 12以降、およびIE 10以降のブラウザで正常動作する。

https://orthovenn2.bioinfotoolkits.net/home にアクセスする。

比較したい生物を選択する。Plantからヒメツリガネゴケ、

f:id:kazumaxneo:20190521205035p:plain

そしてシロイヌナズナ、

f:id:kazumaxneo:20190521205158p:plain

イネを選択してみる。

f:id:kazumaxneo:20190521205308p:plain

右側に選択した生物が表示される。

f:id:kazumaxneo:20190521205353p:plain

手持ちの配列も追加して比較したい場合、Upload protein sequencesからアップロードする。

f:id:kazumaxneo:20190521230018p:plain

最後にパラメータを指定してstart analysisボタンをクリックする。

f:id:kazumaxneo:20190521205437p:plain

しばらくすると結果が表示される。この時は数分で結果が表示された（手持ちのデータを加えると相応の時間がかかる）。

f:id:kazumaxneo:20190521210457p:plain

上の図はオルソログの共通、固有の数を表している。たくさんの生物種を比較していて、表示しきれない場合は、Displray rowsをクリックして表示数を増やす。

f:id:kazumaxneo:20190521212348p:plain GO

例えば下の状態なら、左の２つの生物に共通しているオロソログを表していて、右側のヒメツリガネゴケには存在しないオルソログのsumaryになる。

f:id:kazumaxneo:20190521212507p:plain

共有されているクラスター数は3166になっている。

右上には表で結果がまとめられる。

f:id:kazumaxneo:20190521230804p:plain

ClustersとProteinsとは共有されているクラスター数とクラスター内のタンパク質メンバー数、右端のsingletonsは他の種のいずれにもオルソログが見つからないシングルトン遺伝子として定義される。

下にはベン図でまとめられる（最大6生物）。ベン図はClassicとEdwards形式で切り替えられる。

f:id:kazumaxneo:20190521212908p:plain

Edwards形式。

リストは右側からダウンロードできる。

f:id:kazumaxneo:20190521213105p:plain

ヒートマップで可視化することもできる。

f:id:kazumaxneo:20190521213144p:plain

実行するには右下のPairwise HeatMapボタンをクリックする。

OrthoVenn2は、特定のオルソログクラスターのfunctional annotationを行う機能も持つ。そのためにはベン図の数値部分をクリックする。 f:id:kazumaxneo:20190521214230p:plain

GO term分類結果をまとめたページにジャンプした。GOの３つのメインカテゴリが表示されている。AmiGO 2ともリンクしている。

f:id:kazumaxneo:20190521214913p:plain

GOのtermごとにグループ化され、プロテイン数が多クラスター順に並ぶ。下はプロテイン数が7つのオロソログクラスターになる。

f:id:kazumaxneo:20190521221118p:plain

クリックすると、そのオルソログクラスターのリストを分析できるページに飛ぶ。

protein network

f:id:kazumaxneo:20190521221158p:plain

左側からいくつかの機能を実行できる。

f:id:kazumaxneo:20190521222903p:plain

マルチプルアラインメント

f:id:kazumaxneo:20190521221501p:plain

系統樹

f:id:kazumaxneo:20190521221739p:plain

環状（別のクラスターを使ってます）

f:id:kazumaxneo:20190521222303p:plain

MEME

テスト時はMEMEによるモチーフ可視化は動作しなかった。

Tips

Xeon goldのシングルサーバーで動かしているため、マルチプルアラインメントや系統樹などが重たい場合がある。その時はここからfasta配列を取得し、

f:id:kazumaxneo:20190624200242j:plain

それからMAFFTオンラインでマルチプルアラインメントと系統樹作成を行うのが簡単かもしれません。

引用

OrthoVenn2: a web server for whole-genome comparison and annotation of orthologous clusters across multiple species
Ling Xu Zhaobin Dong Lu Fang Yongjiang Luo Zhaoyuan Wei Hailong Guo Guoqing Zhang Yong Q Gu Devin Coleman-Derr Qingyou Xia ... Show more
Nucleic Acids Res. 2019 May 4

OrthoVenn: a web server for genome wide comparison and annotation of orthologous clusters across multiple species
Wang Y1, Coleman-Derr D2, Chen G3, Gu YQ

Nucleic Acids Res. 2015 Jul 1

Question: Multiline Fasta To Single Line Fasta

https://www.biostars.org/p/9262/