macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

オルガネラゲノムのアノテーションを行う GeSeq

 

 次世代シークエンシング(NGS)技術は、オルガネラゲノム配列のavailabilityを爆発的に増加させた(論文より ref.1)。しかし、シーケンスアノテーションは依然として大きなボトルネックになっている。オルガネラゲノムの(半)自動注釈のための4つのツールが現在利用可能であるが、これらのプログラムの全ては、ユーザによる参照配列のカスタマイズ可能性が限られている。これは、オルガネラゲノムまたはカスタムフィーチャのサブセットの注釈を防止するだけでなく、ユーザが独自の高品質のリファレンスを利用することを妨げる。 CpGAVAS(ref.3)とVerdant(ref.4)は葉緑体ゲノムのみを注釈するのに対し、Mitofy(ref.2)は植物ミトコンドリア配列の注釈のために開発された。 DOGMA(ref.5)は、葉緑体および動物のミトコンドリア配列を注釈するが、植物ミトコンドリアゲノムは注釈しない。参照選択の制限に加えて、これらのツールのいずれも、手動でキュレーションされた参照配列データベースを提供せず、RNA編集を考慮に入れず、またBLAST / BLATおよびHMMERのような異なる方法を使えず、さらに異なるde novo tRNA予測アルゴリズムを利用することもできない。

 GeSeqは、オルガネラシーケンスの注釈のためのWebベースのアノテーションツール。プログラムは植物用に開発された。しかしながら、適切なリファレンスセットを用いれば、哺乳類のような種からのミトコンドリアゲノムにも注釈を付けることができる。プラスミドコレクション全体でさえ、GeSeqを使用して注釈を付けることができるが、植物系統以外では厳密にツールは検証されていない。 GeSeqは、短い実行時間で高品質の注釈を生成し、高度にカスタマイズ可能で、バッチ提出も可能である。 GeSeqの機能は使いやすいGUIに統合されており、柔軟性が高く、多くの注釈作業の要求を満たすことができる。葉緑体ゲノムの高品質アノテーションのために、GeSeqには、手動でキュレーションされたリファレンス配列と、葉緑体タンパク質およびrRNAコード遺伝子の対応するプロファイル隠れマルコフモデル(プロファイルHMM)データベースが装備されている。

 GeSeqは完全なオルガネラゲノムまたはゲノムセグメントの注釈である「古典的」アノテーション作業のほかに、NGSコンティグ由来の複数の配列に注釈をつけたり、特定の遺伝子のコドンベースのアラインメントを生成したり、他の(より小さい)DNA配列に使用できる。これは、例えば、デノボアセンブリのコンティグを確認するための迅速なアノテーションおよび/またはギャップクローズのためのプライマー結合部位のマッピングを可能にする。

 

Documents

https://chlorobox.mpimp-golm.mpg.de/gs_documentation.html

統合されているツール

https://chlorobox.mpimp-golm.mpg.de/gs_3rdparty.html

ブラウザ互換性

CHLOROBOXの全ツール

https://chlorobox.mpimp-golm.mpg.de/index.html

 

GeSeqはBLATを使用して、入力配列を参照データベースと比較している(BLATはエキソンイントロンの境界の扱いが上手なため選択された、と書かれている)。葉緑体タンパク質をコードする遺伝子の高品質の注釈を提供するために、幅広い分類学的範囲をカバーする手動で選別された参照データベース使っている。簡単なアノテーションアルゴリズムの説明がDocumentsに載っています。

 

GeSeq

f:id:kazumaxneo:20180327114852j:plain

Add FASTAからファイルを選択する。環状ならCircularにチェックを入れる。

f:id:kazumaxneo:20180327115432j:plain

 

不明な点があれば、カーソルを合わせることで簡単な説明が表示される。

f:id:kazumaxneo:20180327115618j:plain

 

I have read and accept the Disclaimer(リンク)を読み、チェックをつけた上で提出する。

f:id:kazumaxneo:20180327120426j:plain

 

submitしたジョブ一覧は右端のウィンドウに示される。

f:id:kazumaxneo:20180327114401j:plain

 

右端のExampleをsubmitしてみる。Exampleをクリックして、I have read and accept the Disclaimerにチェックをつけた上でsubmitをクリック。

f:id:kazumaxneo:20180327120648j:plain

 

サーバー負荷が低ければ1分程度で解析は終わる。

f:id:kazumaxneo:20180327120910j:plain

 

著者らの描画ツール OGDRAW(リンク)での描画。

f:id:kazumaxneo:20180327120849j:plain

 

ARAGORN(リンク)によるtRNA予測。

f:id:kazumaxneo:20180327121213j:plain

 

Genbankのダウンロード。下のDownloadをクリック。

f:id:kazumaxneo:20180327121310j:plain

 

ダウンロードしたgbファイルは、snapgene(紹介)などで表示できる。

f:id:kazumaxneo:20180327121439j:plain

 

 

GeSeq出力のGenBankファイルについて、Documentには、手動で確認し、必要に応じてGeSeqの出力を修正(curation)するよう書かれている。 

 

Alternative toolsで他のツールも紹介してくれています。

https://chlorobox.mpimp-golm.mpg.de/Alternative-Tools.html

 

引用

GeSeq – versatile and accurate annotation of organelle genomes

Michael Tillich, Pascal Lehwark, Tommaso Pellizzer, Elena S, Ulbricht-Jones, Fischer, Ralph Bock, Stephan Greiner

Nucleic Acids Res. 2017 Jul 3