macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

機能アノテーション付けを行うwebサービス eggNOG-Mapper

2020 9/1  説明追記

2021 8/6 リンク追加

2023/08/10 気づいた事追記

 

重複イベントではなく種分化に由来するオーソロガス遺伝子の同定(Fitch 1970)は、新規遺伝子の機能的特性化に深い意味を持つ長年にわたる進化の問題である。 「オルソログ推測」では、同じ遺伝子重複イベントから派生したパラログ間よりもオーソロガス遺伝子間で祖先の機能が保持される可能性が高いと述べられている(Tatusov et al1997)。したがって、モデル生物での遺伝子の役割について得られた情報は、実験的に扱いにくい種のオルソログに潜在的に移行できる。この動機は依然として中心的だが(Gabaldónand Koonin 2013)、その応用はしばしばオルソロジーの割り当てではなくより一般的な相同性検索に基づいたアドホックスクリプトソリューションの形でユーザー(例:ゲノムアノテーター)に任せられる。新たに配列決定されたゲノムの機能アノテーションに使用されるほとんどのツールは、BLAST(Blast2GO、Götzet al。2008; RAST、Overbeek et al、2014)または配列プロファイルベースの検索(Finn et al、2014; Jones et al、2014)から機能語彙を転送する。

(一部略)eggNOGデータベースに加えられた最新の改良(Huerta-Cepas et al、2016b)に基き、eggNOG-mapperを作成した。eggNOG-mapperは、新規配列の高速機能アノテーションを目的としたアプリケーションである。このツールは、通常、ゲノム、メタゲノム、およびトランスクリプトームデータから翻訳された大規模な遺伝子コーディング領域配列のアノテーション用に設計されている。(一部略)現在、eggNOG HMMコレクションは、1,678の細菌、115の古細菌、238の真核生物、352のウイルスにまたがる1,911,745のOGの配列プロファイルで構成されている。

 

Github

 

使い方

http://eggnog-mapper.embl.de にアクセスする。

f:id:kazumaxneo:20200526163356p:plain

 

タンパク質配列を指定する。de novo transcriptome解析のアセンブリ配列も使用できるが、その場合も前以てTransdecoderなどを使って得た推定タンパク質配列を使った方がアノテーション率は上がる。

f:id:kazumaxneo:20200208223713p:plain

 

アノテーションを転送するtaxonomyを指定する。

f:id:kazumaxneo:20200208223639p:plain

 

f:id:kazumaxneo:20200208223809p:plain


オプションを指定して実行する。

f:id:kazumaxneo:20200208223829p:plain

指定したアドレスにメールが届く。メールからリンクしたページで、"start"ボタンを押すとジョブがサブミットされる。

f:id:kazumaxneo:20200208225508p:plain

 

ジョブが終わろとメールが届く。左下のaccess your jobにクリック。

f:id:kazumaxneo:20200209083634p:plain

 

ダウンロードする。

f:id:kazumaxneo:20200209083637p:plain

query_seqs.fa.emapper.annotations

f:id:kazumaxneo:20200209083641p:plain

相同なeggNOG_orthologとそのevalue、遺伝子名、アサインされたtaxonomy、KEGG_PathwayやGOのIDが示される。

 

query_seqs.fa.emapper.seed_orthologs

f:id:kazumaxneo:20200209084747p:plain

 

2023/08/10

稀に完了のメールが届かない不具合があるようです。終わってれば、ラン開始時のメールからデータフォルダにアクセスしてアノテーションをダウンロードできます。

 

コメント

  • de novo transcriptomeの転写産物にアノテーションを付ける場合、CDSモードで直接アノテーションをつけるよりも、Transdecoderでタンパク質配列を予測して得たタンパク質を使って実行することを推奨します。試した時はアノテーションは10倍以上増えました。(参考; Transdecoderにはsingle best hit onlyのオプションがあります。つけると、1つの転写産物につき1つのコード領域のみが保持されます)

引用
Fast Genome-Wide Functional Annotation through Orthology Assignment by eggNOG-Mapper

Huerta-Cepas J, Forslund K, Coelho LP, Szklarczyk D, Jensen LJ, von Mering C, Bork P

Mol Biol Evol. 2017 Aug 1;34(8):2115-2122

 

関連


EnTAPでde novoアセンブルしたRNA-seqデータにアノテーション