植物ゲノムアノテーションwebサービス MEGANTE

ハイスループットシーケンシング技術の出現により、植物ゲノムシーケンシングは加速し、そしてデータは作物改良のために利用されてきている（Bevan and Uauy 2013）。大量の植物ゲノム配列の蓄積は、比較ゲノミクスデータベースの構築（Mihara et al、2010、Nagamura et al、2011、Rouard et al、2011、Goodstein et al、2012）および効率的なデータ統合のための植物特異的なvocabulary開発をもたらした（Cooper et al、2013）。しかし、ハイスペックなコンピュータ、膨大な量のデータストレージ、およびコンピュータサイエンスと分子生物学の両方における専門知識の必要性から、データ管理と分析のコストは増大している。これらのデータ解析において、ゲノムアノテーションは最も基本的かつ不可欠なステップの1つであり（Yandell and Ence 2012）、分子進化解析、トランスポゾンタギングおよびマイクロアレイ実験などのさらなる研究に直接影響を及ぼす。いくつかの解析プログラムを実施した後、結果を統合して遺伝子構造を予測し、遺伝子機能をアサインする必要があるため、アノテーション手順にはより高いレベルのバイオインフォマティクススキルが必要になる。したがって、研究者がゲノムアノテーションを実行し、結果をグラフィカルビューアで視覚化しアノテーション結果を解釈する、バイオインフォマティクスの専門知識を必要としない使いやすいアノテーションプラットフォームが不可欠である。

　現在、植物ゲノムアノテーションのために数種類の分析ツールがオンラインで利用可能である（論文執筆当時）。例えば、AUGUSTUS（Stanke and Waack 2003）、Fgenesh（Salamov and Solovyev 2000）、GeneMark.hmm（Lukashin and Borodovsky 1998）などのオンラインバージョンのab initio遺伝子予測プログラムを使用してゲノム配列からオープンリーディングフレーム（ORF）を見つけることができる。FPGP（Amano et al、２2010）は、双子葉植物および単子葉植物の全長cDNA（FLcDNA）配列をクエリ配列にアライメントさせる。 Gramene（Youens-Clark et al、2011）およびPlantGDB（Duvick et al、2008）は、植物ヌクレオチドまたはタンパク質データベースに対する類似検索のWebサービスを提供している。分析結果のグラフ表示には、WebGBrowse（Podicheti et al。2009）が良い候補である。このようなWebサービスはゲノムアノテーションには役立つが、研究者が複数のWebサイトにアクセスしてその結果を1つずつ解釈するのは時間がかかる。さらに、そのようなアノテーション手順は、バイオインフォマティクススキルのない人々にとっては、入力シーケンスに対して適切なツールおよびパラメータセットを選択することが困難である。したがって、植物遺伝子のポジショナルクローニングなどのゲノム解析をサポートするには、一連の解析プログラムを自動的に実行するための統合解析ツールが必要である（Chen et al、2009、Xu et al、2011）。

　植物ゲノムシーケンスには、いくつかのWebベースのアノテーションパイプラインが利用可能である。それらのいくつかは、特定の植物ゲノムアノテーション用に設計されている。 RiceGAAS（Sakata et al。2002）はライス用で、TriAnnot（Leroy et al、2012）はコムギ用である。植物だけでなく他の種にも適応できる、より用途の広いゲノムアノテーションツールもある。 DNA subway（Goff et al、2011）は動物と植物の両方にパラメータセットを提供している。 MAKER（Cantarel et al、2008）は、分析プログラム用のリファレンスデータベースとパラメータを選択するための高度に設定可能なウェブインタフェースを持っている。ただし、既存のアノテーションパイプラインでサポートされている植物種はほとんどない。

　ここでは、クエリ配列に対していくつかの解析プログラムを実行し、結果を統合し、ゲノムブラウザ上でアノテーション情報を視覚化する、MEGANTEと呼ばれる新しい植物ゲノムアノテーション Webサービスについて説明する。既存のツールと比較して、MEGANTEの注目すべき機能の1つはそのシンプルなインターフェースである。MEGANTEはエキスパートでなくても使いやすい。さらに、このサービスは多種多様な植物種を対象としており、長さが最大10 Mbまでの大きなクエリシーケンスを受け入れる。

　アップロードされたシーケンスは最初にキューに入れられ、次にクエリがround-robin方式でアプリケーションサーバー上で処理され、プロセスが公平にスケジュールされる。現在のシステムでは、5つのアノテーションプロセスを並行して実行できる。アノテーションプロセス全体は、１Ｍｂの配列については約150分以内に、そして10Ｍｂの配列については約15時間以内に完了できる。アノテーションプロセスが終了すると、転写物およびタンパク質配列のアラインメント。予測される遺伝子構造既知のタンパク質との類似点機能ドメイン Gene Ontology（GO）（Ashburner et al。2000）、が報告される。すべての結果は、システムに統合されている広く使用されているゲノムブラウザ、GBrowse（Stein et al。2002）で視覚化される。さらに、システムはアノテーション結果をダウンロード用の単一のZIPファイルにアーカイブする。ファイルには、Microsoft ExcelとGFF3（http://www.sequenceontoloty.org/gff3.html）の両方の形式でアノテーション情報が含まれている。ユーザがクエリを送信するときに電子メール通知のオプションを選択した場合は、注釈の完了時に電子メールが送信されてユーザに通知される。 Webブラウザとサーバー間のデータ転送はSSL暗号化によって保護されている。

　MEGANTEは、ゲノムアノテーションのために、INSDC（Nakamura et al。2013）から得られたFLcDNAおよびEST、Swiss-ProtとTrEMBLとUniProtKBの植物部門（Magrane and UniProt Consortium 2011）、タンパク質ファミリーおよびドメインデータベース、Interpro（Hunter et al、2011）を含む複数のリファレンスデータベースを使用している。データベースは定期的に更新している。配列数などのデータベースの最新の詳細は、MEGANTE Webサイトに記載されている。論文表1に記載されている各種のFLcDNAとESTを取得した後、SeqCleanスクリプト（http://sourceforge.net/projects/seqclean/）を実行して、転写産物からpoly（A）テイル、ベクター、複雑さが少ない短い配列を削除する。

全体的なアノテーションワークフローを論文図2に示す。アノテーションプロセスは、MIPS Repeat Element データベース（Nussbaumer et al。2013）とRepeatMasker（http://repeatmasker.org）によって検出されたRepeat Element を除外することから始まる。次に、エクソン - イントロン構造を予測するために、システムはBLATを使用して種内FLcDNAをクエリ配列にアラインメントし、カットオフ率≧98％の同一性と網羅率を得る（Kent 2002）。種内FLcDNAは正確な遺伝子予測に有効であるが、多くの場合、配列の数は遺伝子全体を網羅するのに十分ではない。このため、本著者らは、ab initio遺伝子予測にAUGUSTUS（Stanke and Waack 2003）、GeneZilla（Allen et al、2006）、Glimmer HMM（Allen et al、2006）およびSNAP（Korf、2004）、ProSplign（Sayers et al、2006）を使用する。（

以下略）

ヘルプ

https://megante.dna.affrc.go.jp/help

Overview of the genome annotation workflow in MEGANTE. 論文より転載

対応ゲノム

f:id:kazumaxneo:20190317173329p:plain

f:id:kazumaxneo:20190317173331p:plain

MEGANTEに関するツイート

使い方

https://megante.dna.affrc.go.jp/homeにアクセスする。

https://megante.dna.affrc.go.jp/sigin からサインインする。初めてならばまず登録する。

右上のuploadからマルチfastaをアップロードする。

f:id:kazumaxneo:20190317171055p:plain

１配列最大10Mb、最大100配列まで同時アップロードできる。それ以上の配列があるなら、複数回繰り返す必要がある。

-----------参考-----------

10Mb以上の配列があるならseqkit（紹介）などで除く。10Mb以下の配列を出力

seqkit seq -M 10000000 scaffolds.fa > filtered.fa

-M, --max-len int only print sequences shorter than the maximum length (-1 for no limit) (default -1)

f:id:kazumaxneo:20190317155754p:plain

配列はパラレルに処理される。

f:id:kazumaxneo:20190317172035p:plain

終わるとダウンロードできるようになる（↑上から３つ目が終わってる）。

表示数は左上から変更する。

f:id:kazumaxneo:20190317172125p:plain

ジョブが終わった配列はダウンロード / ゲノムブラウザで可視化ができる（他の配列が終わってなくても可能）。

f:id:kazumaxneo:20190317172527p:plain

exampleファイルのアノテーションファイルの中身をチェックする。

f:id:kazumaxneo:20190317155925p:plain

gene.xlsx

f:id:kazumaxneo:20190317155934p:plain

domain.xlsx

f:id:kazumaxneo:20190317160022p:plain

blast.xlsx

f:id:kazumaxneo:20190317160116p:plain

function.xlsx

f:id:kazumaxneo:20190317160146p:plain

ゲノムブラウザでのORF可視化結果。

f:id:kazumaxneo:20190317155902p:plain

100配列投げたら100回完了のメールが来るのでびっくりしますが、そうゆう仕様のようです。

引用

MEGANTE: A Web-Based System for Integrated Plant Genome Annotation

Hisataka Numa, Takeshi Itoh

Plant Cell Physiol. 2014 Jan; 55(1): e2.

ゲノムアノテーションウェブサービスMEGANTEの果樹への応用（著者らによる使い方の説明）

https://www.naro.affrc.go.jp/publicity_report/publication/files/40f6ec588a1b579067ebd49d3b271113.pdf

参考

生物情報工学II 遺伝子の配列解析

https://www.agr.nagoya-u.ac.jp/~bioinfo/Ashikari/7th/2017.7-1.pdf

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

植物ゲノムアノテーションwebサービス MEGANTE