macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

De novo遺伝子予測やメタゲノムの機能アノテーションなどに対応したeggNOG-Mapper v2

 

 遺伝子の自動機能アノテーションは、ほとんどのゲノムおよびメタゲノムワークフローにおいて基本的なステップであるにもかかわらず、大規模なスケールでは依然として困難である。本研究では、事前に計算されたorthology assignmentsに基づいて機能アノテーションを行うツールであるeggNOG-mapperを大幅に改良し、膨大な(メタ)ゲノムデータセットに最適化した。バージョン2では、ゲノムと機能データベースの両方をeggNOG v5からに完全に更新し、いくつかの効率化と新機能が追加された。最も重要なのは、eggNOG-mapper v2では以下のことが可能になったことである。eggNOG-mapper v2 では、(i) 生のコンティグからの de novo 遺伝子予測、(ii) ビルトインのpairwise orthology prediction、(iii) 高速タンパク質ドメイン発見、(iv) 自動 GFF デコレーションが可能になった。 eggNOG-mapper v2 は、スタンドアローンのツールとして、またはオンラインサービスとして、http://eggnog-mapper.embl.deで利用できる。

 基盤となるゲノムデータベースがeggNOG v5 (Huerta-Cepas et al. 2019)と同期するように更新され、440万個のOrthologous Groups (OGs)と、前バージョンの2倍以上の生物にまたがっている。この改善により、アノテーションカバレッジと系統学的解像度が向上し、特に大規模なメタゲノム・データセットを解析する際に顕著になった。例えば、ヒト腸管メタゲノム遺伝子カタログからランダムにサブサンプリングした175万個のタンパク質の再アノテーションを行ったところ(Almeida et al.2021)、eggNOG-mapperバージョン1と比較して、アノテーションカバレッジが3.23%向上した(56,569個のタンパク質が新たにアノテーションされた)。また、系統学的な分解能も向上し、クエリ配列のアライメントスコアが前バージョンよりも有意に向上した(Wilcoxon test W = 1.2E+12, p-value < 2.2E-16)。さらに、基盤となるデータベースのサイズが2倍になったにもかかわらず、eggNOG-mapper v2では、アノテーション率(1秒あたりのアノテーションされたクエリ)が前バージョンに比べて平均で16%向上した。計算機能の向上に関する最も重要な変更点は、データベースの最適化により、クエリの高速化と並列化が可能になったことと、新しいメモリベースモードにより、低速なI/Oディスク操作の影響が大幅に軽減されたことである。これらの変更により、eggNOG-mapper v1と比較して、アノテーション率が平均で608%向上した(論文図1B)。最近のベンチマーク(Shaffer et al. 2020)から、原核生物ゲノム用の最速のアノテーションツールの1つであるProkka(Seemann 2014)と比較すると、eggNOG-mapperは、特に大規模なメタゲノムデータセットにおいて、より高速に動作する(論文図1C)。
 新しいeggNOG-mapperのワークフローに追加されたもう一つの主要な機能は、アセンブルされたコンティグから直接ORFを予測することである(論文図1A)。原核生物アセンブリでのみ利用可能なORF検出は、eggNOG-mapperが機能アノテーションに使用するタンパク質配列を提供するProdigal (Hyatt et al. 2010)を使用して実行される。Prodigalのモード("normal"、"anonymous"、"training")やカスタム翻訳テーブルは、ユーザーがさらに選択することができる。

 

 

FAQ Frequently Asked Questions

https://github.com/eggnogdb/eggnog-mapper/wiki/FAQ---Frequently-Asked-Questions

 

使い方

http://eggnog-mapper.embl.de にアクセスする。

f:id:kazumaxneo:20210605201822p:plain


protein、CDS、genome、Metagenomic、Seedのfastaファイルから選択する。

 (up to 1000 contigs, max total nucleotides: 10,000,000) 

Genomic

f:id:kazumaxneo:20210605201655p:plain

Metagenomic

f:id:kazumaxneo:20210605204146p:plain

 

Advanced Options

f:id:kazumaxneo:20210605205559p:plain

f:id:kazumaxneo:20210605205617p:plain

メールアドレスを記入してサブミットすると、サブミット後にそのアドレスにメールが届く。そのメールに従ってジョブを開始する。

 

サーバーの混雑度に応じてジョブが開始されるまでにある程度の時間がかかる。サーバーの現在のステータスはHP下から確認できる。

f:id:kazumaxneo:20210605211305p:plain

 

ランが終わるとメールが届く。結果はCSVexcel形式でダウンロードできる。

f:id:kazumaxneo:20210605211618p:plain

 

引用

eggNOG-mapper v2: Functional Annotation, Orthology Assignments, and Domain Prediction at the Metagenomic Scale

Carlos P Cantalapiedra, Ana Hernandez-Plaza, Ivica Letunic, Peer Bork, Jaime Huerta-Cepas

bioRxiv, Posted June 04, 2021

 
eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses

Jaime Huerta-Cepas, Damian Szklarczyk, Davide Heller, Ana Hernández-Plaza, Sofia K Forslund, Helen Cook, Daniel R Mende, Ivica Letunic, Thomas Rattei, Lars J Jensen, Christian von Mering, Peer Bork

Nucleic Acids Res. 2019 Jan 8;47(D1):D309-D314

 

関連