遺伝子の自動機能アノテーションは、ほとんどのゲノムおよびメタゲノムワークフローにおいて基本的なステップであるにもかかわらず、大規模なスケールでは依然として困難である。本研究では、事前に計算されたorthology assignmentsに基づいて機能アノテーションを行うツールであるeggNOG-mapperを大幅に改良し、膨大な(メタ)ゲノムデータセットに最適化した。バージョン2では、ゲノムと機能データベースの両方をeggNOG v5からに完全に更新し、いくつかの効率化と新機能が追加された。最も重要なのは、eggNOG-mapper v2では以下のことが可能になったことである。eggNOG-mapper v2 では、(i) 生のコンティグからの de novo 遺伝子予測、(ii) ビルトインのpairwise orthology prediction、(iii) 高速タンパク質ドメイン発見、(iv) 自動 GFF デコレーションが可能になった。 eggNOG-mapper v2 は、スタンドアローンのツールとして、またはオンラインサービスとして、http://eggnog-mapper.embl.deで利用できる。
基盤となるゲノムデータベースがeggNOG v5 (Huerta-Cepas et al. 2019)と同期するように更新され、440万個のOrthologous Groups (OGs)と、前バージョンの2倍以上の生物にまたがっている。この改善により、アノテーション・カバレッジと系統学的解像度が向上し、特に大規模なメタゲノム・データセットを解析する際に顕著になった。例えば、ヒト腸管メタゲノム遺伝子カタログからランダムにサブサンプリングした175万個のタンパク質の再アノテーションを行ったところ(Almeida et al.2021)、eggNOG-mapperバージョン1と比較して、アノテーションカバレッジが3.23%向上した(56,569個のタンパク質が新たにアノテーションされた)。また、系統学的な分解能も向上し、クエリ配列のアライメントスコアが前バージョンよりも有意に向上した(Wilcoxon test W = 1.2E+12, p-value < 2.2E-16)。さらに、基盤となるデータベースのサイズが2倍になったにもかかわらず、eggNOG-mapper v2では、アノテーション率(1秒あたりのアノテーションされたクエリ)が前バージョンに比べて平均で16%向上した。計算機能の向上に関する最も重要な変更点は、データベースの最適化により、クエリの高速化と並列化が可能になったことと、新しいメモリベースモードにより、低速なI/Oディスク操作の影響が大幅に軽減されたことである。これらの変更により、eggNOG-mapper v1と比較して、アノテーション率が平均で608%向上した(論文図1B)。最近のベンチマーク(Shaffer et al. 2020)から、原核生物ゲノム用の最速のアノテーションツールの1つであるProkka(Seemann 2014)と比較すると、eggNOG-mapperは、特に大規模なメタゲノムデータセットにおいて、より高速に動作する(論文図1C)。
新しいeggNOG-mapperのワークフローに追加されたもう一つの主要な機能は、アセンブルされたコンティグから直接ORFを予測することである(論文図1A)。原核生物のアセンブリでのみ利用可能なORF検出は、eggNOG-mapperが機能アノテーションに使用するタンパク質配列を提供するProdigal (Hyatt et al. 2010)を使用して実行される。Prodigalのモード("normal"、"anonymous"、"training")やカスタム翻訳テーブルは、ユーザーがさらに選択することができる。
eggNOG-mapper v2 now in bioarxiv: https://t.co/5KwshSMb76 Awesome work by @cpcantalapiedra et al refactoring code for better performance on huge metagenomic datasets and adding new features: ORF calling, fast domain prediction, orthology reports & more! @BorkLab@anahernandezpl1 pic.twitter.com/yD8kM9cHVy
— Jaime Huerta-Cepas (@jhcepas) 2021年6月4日
FAQ Frequently Asked Questions
https://github.com/eggnogdb/eggnog-mapper/wiki/FAQ---Frequently-Asked-Questions
使い方
http://eggnog-mapper.embl.de にアクセスする。
protein、CDS、genome、Metagenomic、Seedのfastaファイルから選択する。
(up to 1000 contigs, max total nucleotides: 10,000,000)
Genomic
Metagenomic
Advanced Options
メールアドレスを記入してサブミットすると、サブミット後にそのアドレスにメールが届く。そのメールに従ってジョブを開始する。
サーバーの混雑度に応じてジョブが開始されるまでにある程度の時間がかかる。サーバーの現在のステータスはHP下から確認できる。
ランが終わるとメールが届く。結果はCSVかexcel形式でダウンロードできる。
引用
eggNOG-mapper v2: Functional Annotation, Orthology Assignments, and Domain Prediction at the Metagenomic Scale
Carlos P Cantalapiedra, Ana Hernandez-Plaza, Ivica Letunic, Peer Bork, Jaime Huerta-Cepas
bioRxiv, Posted June 04, 2021
eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses
Jaime Huerta-Cepas, Damian Szklarczyk, Davide Heller, Ana Hernández-Plaza, Sofia K Forslund, Helen Cook, Daniel R Mende, Ivica Letunic, Thomas Rattei, Lars J Jensen, Christian von Mering, Peer Bork
Nucleic Acids Res. 2019 Jan 8;47(D1):D309-D314
関連