次世代シークエンシング(NGS)技術は、オルガネラゲノム配列のavailabilityを爆発的に増加させた(論文より ref.1)。しかし、シーケンスアノテーションは依然として大きなボトルネックになっている。オルガネラゲノムの(半)自動注釈のための4つのツールが現在利用可能であるが、これらのプログラムの全ては、ユーザによる参照配列のカスタマイズ可能性が限られている。これは、オルガネラゲノムまたはカスタムフィーチャのサブセットの注釈を防止するだけでなく、ユーザが独自の高品質のリファレンスを利用することを妨げる。 CpGAVAS(ref.3)とVerdant(ref.4)は葉緑体ゲノムのみを注釈するのに対し、Mitofy(ref.2)は植物ミトコンドリア配列の注釈のために開発された。 DOGMA(ref.5)は、葉緑体および動物のミトコンドリア配列を注釈するが、植物ミトコンドリアゲノムは注釈しない。参照選択の制限に加えて、これらのツールのいずれも、手動でキュレーションされた参照配列データベースを提供せず、RNA編集を考慮に入れず、またBLAST / BLATおよびHMMERのような異なる方法を使えず、さらに異なるde novo tRNA予測アルゴリズムを利用することもできない。
GeSeqは、オルガネラシーケンスの注釈のためのWebベースのアノテーションツール。プログラムは植物用に開発された。しかしながら、適切なリファレンスセットを用いれば、哺乳類のような種からのミトコンドリアゲノムにも注釈を付けることができる。プラスミドコレクション全体でさえ、GeSeqを使用して注釈を付けることができるが、植物系統以外では厳密にツールは検証されていない。 GeSeqは、短い実行時間で高品質の注釈を生成し、高度にカスタマイズ可能で、バッチ提出も可能である。 GeSeqの機能は使いやすいGUIに統合されており、柔軟性が高く、多くの注釈作業の要求を満たすことができる。葉緑体ゲノムの高品質アノテーションのために、GeSeqには、手動でキュレーションされたリファレンス配列と、葉緑体タンパク質およびrRNAコード遺伝子の対応するプロファイル隠れマルコフモデル(プロファイルHMM)データベースが装備されている。
GeSeqは完全なオルガネラゲノムまたはゲノムセグメントの注釈である「古典的」アノテーション作業のほかに、NGSコンティグ由来の複数の配列に注釈をつけたり、特定の遺伝子のコドンベースのアラインメントを生成したり、他の(より小さい)DNA配列に使用できる。これは、例えば、デノボアセンブリのコンティグを確認するための迅速なアノテーションおよび/またはギャップクローズのためのプライマー結合部位のマッピングを可能にする。
Documents
https://chlorobox.mpimp-golm.mpg.de/gs_documentation.html
統合されているツール
https://chlorobox.mpimp-golm.mpg.de/gs_3rdparty.html
ブラウザ互換性
- Mozilla Firefox, version ≥ 31
- Google Chrome, version ≥ 36
- Microsoft Edge, version ≥ 38
- Microsoft Internet Explorer, version ≥ 11
- Apple Safari, version ≥ 9
CHLOROBOXの全ツール
https://chlorobox.mpimp-golm.mpg.de/index.html
GeSeqはBLATを使用して、入力配列を参照データベースと比較している(BLATはエキソンイントロンの境界の扱いが上手なため選択された、と書かれている)。葉緑体タンパク質をコードする遺伝子の高品質の注釈を提供するために、幅広い分類学的範囲をカバーする手動で選別された参照データベース使っている。簡単なアノテーションアルゴリズムの説明がDocumentsに載っています。
GeSeq
Add FASTAからファイルを選択する。環状ならCircularにチェックを入れる。
不明な点があれば、カーソルを合わせることで簡単な説明が表示される。
I have read and accept the Disclaimer(リンク)を読み、チェックをつけた上で提出する。
submitしたジョブ一覧は右端のウィンドウに示される。
右端のExampleをsubmitしてみる。Exampleをクリックして、I have read and accept the Disclaimerにチェックをつけた上でsubmitをクリック。
サーバー負荷が低ければ1分程度で解析は終わる。
著者らの描画ツール OGDRAW(リンク)での描画。
ARAGORN(リンク)によるtRNA予測。
Genbankのダウンロード。下のDownloadをクリック。
ダウンロードしたgbファイルは、snapgene(紹介)などで表示できる。
GeSeq出力のGenBankファイルについて、Documentには、手動で確認し、必要に応じてGeSeqの出力を修正(curation)するよう書かれている。
Alternative toolsで他のツールも紹介してくれています。
https://chlorobox.mpimp-golm.mpg.de/Alternative-Tools.html
引用
GeSeq – versatile and accurate annotation of organelle genomes
Michael Tillich, Pascal Lehwark, Tommaso Pellizzer, Elena S, Ulbricht-Jones, Fischer, Ralph Bock, Stephan Greiner
Nucleic Acids Res. 2017 Jul 3