動物（Metazoa）ミトコンドリアゲノムのアノテーションを行うウェブサーバー MITOS

　信頼性の高い標準化されたゲノムアノテーションは、ゲノム配列データの系統的な比較解析に不可欠な前提条件である。これは、特に系統の再構成、ゲノムリアレンジメントのメカニズムの研究、配列変化の影響の調査に当てはまる。正確で偏りのないアノテーションの必要性は、新しいシーケンス技術によって利用可能になった大量のデータを処理するために自動化されたパイプラインが採用された場合には、さらに緊急性を増している。　

　現在、ミトコンドリアゲノムの完全な配列は、多様な分類群からなる2000種以上のMetazoanで利用可能である。Metazoanのミトコンドリアゲノムは（ごく一部の例外を除いて）平均長さ約16,500ntの環状分子で、極端な長さのものでは11,423nt（Paraspadella gotoi NC_006083）や43,079nt（Trichoplax adhaerens NC_008151）などがある。ミトコンドリアゲノムは、通常、13のタンパク質コード遺伝子、22のtRNA、2つのrRNA、そしてほとんどの調節エレメントを含む1つのノンコーディング領域からなる、よく保存された遺伝子内容を持っている（Wolstenholme, 1992）。この単純な構造は、動物のミトコンドリアゲノムを大規模な比較研究のための魅力的なターゲットにしている。

　ミトコンドリア遺伝子は通常、単一の連続したエクソンで構成されているが、いくつかのクレードではタンパク質をコードする遺伝子やrRNAで例外が報告されており(Beagley et al., 1996, Dellaporta et al., 2006, Wang and Lavrov, 2008)、いくつかのサウロプシドグループでは保存されたフレームシフトが存在する(Mindell et al., 1998)。いくつかのケースでは、いくつかの重複および欠失の証拠もある（例えば、SanMauro et al、2006、Fujita et al、2007）。ミトコンドリアゲノムの特殊性は、逸脱した遺伝子コードの使用、遺伝子の重複、不完全な停止コドンの存在である(Wolstenholme, 1992, Jühling et al., 2012)。これらすべての問題を合わせると、ゲノムアノテーションの作業は複雑になり、大規模な手動による「エキスパートキュレーション」が不可欠になった。このプロセスでは、さまざまなキュレーション担当者によって多くの異なるツールが使用されてきた。Boore (2006)などで議論されているように、これにはいくつかの問題がある。(a) 古いアノテーションで使用されていたツールが時代遅れになっている可能性がある、すなわち、改良された方法がすでに利用可能になっている可能性がある、(b) 相同性アノテーションの基礎として使用されている配列が間違っていたり、不完全であったりする可能性がある、(c) アノテーションのための一般的に認められたガイドラインが存在しない、などである。

　マイトゲノムとそのアノテーションに関する最も包括的で最新のリソースは、NCBI RefSeq (Pruitt et al., 2007)である。RefSeqのキュレーターがデータの質を向上させるために多大な努力をしているにもかかわらず、アノテーションにはいくつかの不整合やエラーが残っており、自動化された解析パイプラインの問題となっている。これには、読み取り方向（ストランド）の情報の欠落や誤り、遺伝子の指定の誤り、遺伝子アノテーションの欠落、trnL1/trnL2とtrnS1/trnS2のtRNAの同一性の間違い、遺伝子名の不一致などが含まれる。

　Boore (2006)は、これらの問題を克服するためのいくつかの可能な解決策を提案している。系統的なエラースクリーニング、遺伝子名の標準化、tRNAのアンチコドンラベリング、遺伝子と遺伝子の境界指定の基準、遺伝子の割り当ての現実を受け入れるための基準である。Bernt et al. (2013a)で詳細にレビューされているいくつかのデータベースは、これらのラインに沿ってRefSeq mitogenomesの改良されたアノテーションを提供することを目的としている。METAMiGA (Feijao et al., 2006)とOGRe (Jameson et al., 2003)は、専門家の知識に基づいたデータの手動による改良を組み込んでいる。tRNAscan-SE (Lowe and Eddy, 1997), ARWEN (Laslett and Canback, 2008), BLAST (Altschul et al., 1990)の検索に基づくルールのリストと専門家の知識を用いた体系的な半自動エラースクリーニングが、最近リリースされた新しいデータベースであるMitoZoa (Lupi et al., 2010)に使用されている。

　遺伝情報は、その情報をもとにして、その情報がどのように変化しているのかを調べたものである。DOGMA (Wyman et al., 2004)は、ミトコンドリアゲノムと葉緑体ゲノムの両方を扱う半自動化された手法のパイプラインである。コーディング遺伝子とノンコーディング遺伝子の同定にBLASTを使用している。COVE (Eddy and Durbin, 1994)は、二次構造に基づいてtRNA候補を同定するためにDOGMAで採用されている。MOSAS (Sheffield et al., 2010)は、配列データの整理とアノテーションに焦点を当てた手法で、昆虫のマイトゲノムを対象としている。tRNAの予測にはARWENとtRNAscan-SEを採用している。BLASTは、MOSASがクエリ配列のローカルデータベース（現在は昆虫のみ）に基づいてオープンリーディングフレームとrRNAを検索するために使用されている。ユーザー定義のカットオフ値が必要であり、予測値を手動で改良する必要があるため、このアプローチは大規模なデータセットに適用することが難しく、予測値の比較可能性が制限されている。

　MITOchondrial genome annotation Server (MITOS)は、Metazoanのミトコンドリアゲノムのde novoアノテーションのための完全自動化されたパイプラインへのアクセスを提供している。また、BLAST検索とアノテーション済みのタンパク質配列とのアグリゲーションに基づく新しい戦略を用いて、タンパク質コード遺伝子を同定する（セクション2.1）。また、tRNAとrRNAは、構造化されたRNAのそれぞれについて、特定の共分散モデルを用いてアノテーションされる（セクション2.2）。本論文では、RefSeq 39に含まれるすべての動物のマイトゲノムのde novoアノテーションにMITOSを適用し、結果の品質を慎重に評価することに焦点を当てた（セクション3）。
　MITOSは、入力としてFASTA形式の配列ファイルと対応する遺伝子コードのみを必要とする。パイプラインは2段階で進行し、最初に各遺伝子の候補配列を特定し、次にこれらを照合して最終的なアノテーションを行う。以下では、MITOSの各コンポーネントの詳細な説明を行う。（以下省略）。

Gitlab

#bioconda
conda create -n mitos -c bioconda -y mitos
conda activate mitos

#pip
pip install mitos

webサービス

MITOS Web Server にアクセスする。

ジョブ名やメールアドレスを記載し、それからミトコンドリアゲノム配列を指定する。

f:id:kazumaxneo:20200622234454p:plain

Advanced

f:id:kazumaxneo:20200622234458p:plain

短い配列でもジョブが終わるまで数時間以上かかる。

出力

アノテーション結果はBEDやGFFなどでダウンロードできる。tRNAの場合、二次構造予測結果へのリンクも付いている。

f:id:kazumaxneo:20200623090939p:plain

引用

MITOS: Improved De Novo Metazoan Mitochondrial Genome Annotation

Matthias Bernt , Alexander Donath, Frank Jühling, Fabian Externbrink, Catherine Florentz, Guido Fritzsch, Joern Pütz, Martin Middendorf, Peter F Stadler

Mol Phylogenet Evol. 2013 Nov;69(2):313-9