ホモログ及びオルソログタンパク質を検索するwebデータベース orthoFind

　相同配列を見つけることは、機能転移によるタンパク質の機能的アノテーションを可能にし、これらの配列が共通の進化起源を有するために推論され、そして進化研究の支持としてしばしば使用される［ref.１−３］。ホモログ内では、オルソログは種分化事象から進化的に出現した配列であり、これは機能転移の過程においてより高い信頼性を提供する。このようにして、機能はそれらの既知のオルソログタンパク質から機能不明のタンパク質に割り当てることができる[ref,4]。

　ホモログを検索するとき、最初の選択は通常相同性検索のための標準的なツール、BLAST [ref.5]である。しかし、ホモログと見なされるすべての配列を収集し、そしてまた、オルソログを識別するために、スコア閾値に基づく手動処理が必要である。実際、オルソログは、最初の配列が由来するゲノム/プロテオームに対して2回目のBLASTを実行し、Reciprocal Best Hits BLAST、RBHB [ref.6]と呼ばれるアプローチを完了することで識別できる。

　配列データベースの現在の成長、およびより自動化されたツールの必要性が多数の計算ツールならびにホモログおよびオルソログのデータベースの出現の基礎となっている。これらの方法は主に2つのクラスに分けられる[ref.7、8]：グラフベースと系統発生的方法。グラフベースの方法では、主にBLASTを使用して全ゲノム間でペアワイズの配列比較を行い、次に、ノードとしての配列と類似性スコアとしてのエッジを使用してグラフを作成する。それらはBLASTに基づいているので、それらは配列データを考慮に入れるだけであるが、ドメインアーキテクチャを考慮することに失敗する。系統学的方法は、重複および水平方向の遺伝子導入などの進化的事象を局在化するためにシーケンスツリーを分析する。それらは異なる進化的関係を区別するためにより正確であるが、それらは通常人間の専門知識に依存し、そして大きな計算コストを有する。さらに、これら2つのクラスの方法の間には大きな違いがあるにもかかわらず、それらは通常同様の結果をもたらす[ref.9]。

さらに、ホモログおよびオルソログのグループを格納するデータベース[ref.10-12]があるが、それらは通常、特定の生物またはデータソースに限定されているか、定期的な更新が欠けている。

　ホモログおよびオルソログを検索するための現在のアプローチの一般的な問題はタンパク質機能についての分析の欠如であり、それは通常そのアノテーションのレビューなしに直接割り当てられる[ref.13]。この問題は、マルチドメインタンパク質を分析すると増大し、そのドメイン特異的機能は、対応するドメインを欠くホモログに誤って移される可能性がある[ref.14]。

さらに、報告された配列を用いて実験室実験を行うために、単に目的の配列のホモログまたはオルソログを見つけたいというユーザーもいる[ref.15]。そのため、ユーザーがクエリとしてもデータベースとしても独自のシーケンスを使用できるようにするには、新しい使いやすいアプローチが必要である。

　ホモログ、特に機能解析を含むオルソログの自動発見のための普遍的でアクセス可能なツールの欠如は、著者らに新しい計算ツール開発に導いた。このアプリケーションはorthoFindと呼ばれ、検索を容易にするために一連の相同配列から開始することができるが、シーケンスを取得してリファレンスデータベースでホモログおよびオルソログを自動的に検索するパブリックWebアプリケーションに実装されている。また、ユーザーは独自のシーケンスデータセット、リファレンスプロテオーム、またはESTデータベースを検索することもできる。これにより、コード配列としてまだ特徴付けられていない発現配列の検索が可能になる。さらに、マルチドメイン問題は、候補配列の長さを比較し、そして相同グループに対応しない可能性のあるさらなるドメインを検討することによって対処される。 orthoFindの結果は、発見された配列の機能、パスウェイおよびドメイン構造を示し、それらはホモログとオルソログに分けられる。提供される情報は、機能的分析および新規またはアノテーションなしの配列のアノテーション付けを容易にする。我々（著者ら）は、スプライシングプロセスに関与する相同タンパク質SmnおよびSpf30の分析と共にorthoFindの使用を説明し、それを使用して新しい知識を創出する方法を実証した。

orthoFindは、クエリ配列（または複数の配列）およびBLAST検索から始まり、推定上のホモログ（図１の太い矢印で表される）を見つける。次に、候補は2つのフィルタを通過する。低い同一性の値を持つシーケンスを削除するためのRost曲線と、シーケンスのドメインアーキテクチャを評価するための長さフィルタである。次に、PSI-BLAST検索で新しいホモログを見つけることができ、同じフィルターが再び使用される。必要に応じて、リファレンスプロテオームのデータベース、ユーザーからの配列、またはESTデータベースのいずれかに対して、新しいPSI-BLAST検索を用いてさらなるホモログを探すことが可能である。これらの新しい結果は、長さとロストカーブを使用してフィルタリングされる。最後に、オルソログはRBHBによって識別され、ホモログとオルソログに分けられ、両方がマルチプルアラインメントおよび系統樹として表示される。