macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

高品質の原核生物ゲノムを正確かつ一貫してアノテーション付けた proGenomes3

 

 ゲノム、トランスクリプトーム、その他の微生物オミックスデータの解釈は、十分にアノテーションされたゲノムの利用可能性に大きく依存している。公開されている微生物ゲノムの数が指数関数的に増加し続ける中、品質管理と一貫したアノテーションの必要性が非常に重要になってきている。このデータベースは、可動遺伝因子や生合成遺伝子クラスターを含む複数の機能的・分類学的データベースを用いて一貫したアノテーションを行った40億遺伝子を含む907 388の高品質ゲノムのデータベースである。このデータベースは http://progenomes.embl.de/ で公開されている。

(一部略)

 一般的な機能アノテーションは比較ゲノム研究において最も重要であるが(proGenomesではeggNOGアノテーションが使用されている)、一部のゲノム因子には焦点を当てた専用のアプローチが必要である。例えば、原核生物ゲノムの平均13%を占める可動遺伝因子(MGEs)のアノテーションはまだ十分ではない。多くのデータベースは特定のMGEのアノテーションに特化しており、比較解析のためにゲノム内の全てのMGEを概観することは不可能である。proGenomes3の新機能として、著者らはリコンビナーゼマーカー遺伝子を用いて代表的な全ゲノムのMGEを同定し、さらに以前に記述したモバイルエレメントアノテーションフレームワークに基づき、トランスポゾンタイプ、ファージ、ファージ様エレメント、共役エレメント、モビリティアイランド、インテグロンとしてアノテーションした。

 ゲノムの品質を確保するためには、ゲノムの完全性と汚染度を評価する必要がある。proGenomes3は、これらの品質管理ツールを、収録されたすべてのゲノムに適用し、分類学的および機能的に一貫したアノテーションを行った。これらは生息地情報と組み合わせてリンクされ、比較解析やメタゲノム研究にさらなる価値をもたらす。今回のバージョンアップでは、proGenomes2の10倍のゲノム配列とアノテーションを提供し、より高い系統的カバレッジを実現した。さらに、これらのゲノムは多くの追加リソースにリンクされており、興味のあるゲノムの全体像に直接アクセスすることができる。proGenomes3では、多くのワークフローが改良され、約100万ゲノム、40億遺伝子の処理が可能になり、アノテーショントラックの数も増えた。proGenomes3は、原核生物ゲノムの比較解析に必要なすべての機能を簡単に利用することができる。

 

webサービス

https://progenomes.embl.de/

 

NCBIアセンブリIDまたは生物、種、クレードの分類名で検索できる。



利用可能な全ゲノム情報、マーカー遺伝子、アノテーション情報、オルソログ、抗生物質耐性遺伝子などをまとめてダウンロードできる。

クリックするとダウンロードできる。右端のタブからまとめてダウンロードもできる。mobile genomic elementsは全てのゲノムで調べられているわけではないのかもしれない。自分が知っているたくさんのISを持つ細菌ゲノムのいくつかで、mobile genomic elementsがゼロと表示された(要確認)。

 

SpecIクラスターではhabitat情報を確認できる(単離ゲノムのサンプリング地域)。

Microbe Atlas Project (MAP)にもリンクしている。

 

画像上のTaxonomyからtaxaを繰り替えできる。例えばVibrioをクリックすればVibrio属で利用可能な種一覧が表示される。また、全てのcontigやアノテーションをまとめてダウンロードできる(contigは利用できるゲノムの全部の配列が1つのファイルにまとめられている点に注意)

 

  • 更新は定期的に行われ、基盤となる計算パイプラインは2年ごとにメジャーバージョンアップが予定されている。現在のリリース;proGenomes 3.0は、2021年9月30日にゲノムがダウンロードされた。

 

以前proGenomes2を紹介しているので、proGenomes3は簡単に紹介しました。興味がある方はアクセスしてみてください。

引用

proGenomes3: approaching one million accurately and consistently annotated high-quality prokaryotic genomes 
Anthony Fullam,  Ivica Letunic,  Thomas S B Schmidt,  Quinten R Ducarmon, Nicolai Karcher,  Supriya Khedkar,  Michael Kuhn,  Martin Larralde, Oleksandr M Maistrenko,  Lukas Malfertheiner,  Alessio Milanese, Joao Frederico Matias Rodrigues,  Claudia Sanchis-López,  Christian Schudoma, Damian Szklarczyk,  Shinichi Sunagawa,  Georg Zeller,  Jaime Huerta-Cepas, Christian von Mering,  Peer Bork,  Daniel R Mende
Nucleic Acids Research, Published: 21 November 2022

 

関連