macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

パンゲノム解析を行うためのprokaryotesゲノム情報のデータベース proGenomes2

2019 10/27 twitter追記2

019 10/27 ブラウザについて追記

 

 

 大規模ゲノミクスは、微生物の理解を深めるために役立っている。微生物学は、数千のシーケンスされたゲノムを利用できるデータ集約型の分野に発展した(ref.1–3)。過去20年以上にわたり、シークエンシングされたゲノムを持つ細菌と古細菌の数は指数関数的に増加している(ref.4,5)。微生物のゲノムデータから微生物を理解しやすくするには、アノテーションが不可欠であり。これらにより、研究者は潜在的な機能を特定し、比較分析を行うことができる(ref.6)。このため、最初にproGenomesを開発し、データベースの改善を続けている。いくつかの公的にアクセス可能なデータベースは、ゲノムに基本的なアノテーションまたはさらに複雑なアノテーションを提供する。たとえば、NCBI RefSeqデータベース(ref.7)は、包括的なゲノムセットを公開している(ただし、最小限のアノテーションのみが提供されている)。さらに、Ensembl Bacteria(ref.8)、DOEのJoint Genome Institute Integrated Microbial Genomes&Microbiomes(JGI IMG / M)データベース(ref.9)、またはPATRIC(Pathosystems Resource Integration Center)データベース(ref.10)などのデータベースには、より洗練されたものが含まれているが、多くの場合、情報とアノテーションが選択されている。これらのデータベースの場合、taxonomic annotationsは各ゲノムの提出者によって選択される。これは、微生物と古細菌の種の定義が微生物学者の間で非常に議論されているトピックであるため、tree of life、特に種レベルでの異なるクレード間での不一致につながる(ref.11,12)。一般に、ユーザーエラーだけでなく、不整合はゲノムデータベースで広まっている(ref.13–15)。より高い分類レベルで分類の一貫性を高めるための成功した取り組みは、ゲノム分類データベース(GTDB)(ref.12)であり、specI(ref.5)ゲノム情報を使用して種を描写することはproGenomes v1(ref.4, pubmed)で使用された。

 パンゲノムの概念は、微生物ゲノミクスと微生物学全体の重要な進歩であった(ref.16,17)。 1つの種内で多くのゲノム配列が利用できるため、研究者は多くの種のパンゲノムを探索し、種の機能的レパートリーを研究することができる。それでも、ほとんどのゲノムは、比較アプローチでも個々に研究されている。パンゲノム専用のデータベースは存在するが、これらは多くの場合、特定の分類上のクレードに焦点を当てているか、詳細なfunctional annotationsがない。したがって、多くの種のパンゲノムの利用可能性は、多くの研究と応用を促進する可能性がある。

 ここでは、既存のproGenomesデータベースの更新としてこれらの問題に対処するために開発されたproGenomes2を紹介する。更新されたバージョンでは、すべての種のクラスターのパンゲノムに関する情報を追加しながら、3倍の数のゲノムシーケンスとアノテーション、およびより高い系統範囲を提供する。強化された生息地のアノテーションNCBI BioSampleデータベースへのリンクなど、proGenomes2の多くのワークフローが改善された。データベースはhttp://progenomes.embl.de/で入手できる。

 proGenomes2は、利用可能な微生物ゲノムとカスタマイズ可能なサブセットを、すぐにダウンロードできる使いやすい方法で提供する。生物、種またはクレードの分類名を使用して、ゲノムおよびゲノムのセットを検索および取得できる。提供された情報にアクセスし、インタラクティブに探索し、簡単にダウンロードできる。データベースは今後定期的に更新され、基礎となる計算パイプラインの主要なアップグレードは2年ごとに計画されている。 proGenomes2のゲノム情報は2017年5月15日に取得され、NCBI taxonomy databaseは2019年1月8日にダウンロードされた。(以下略)

 


使い方

http://progenomes.embl.de/index.cgi にアクセスする。

f:id:kazumaxneo:20191025210815p:plain

 

1、Search for a taxonomic clade or specI cluster

何かのクレードを検索してみる。

f:id:kazumaxneo:20191025212328p:plain

 

結果

escherichiaの全情報が表示される。利用可能な全ゲノム情報、アノテーション情報、オルソログ、抗生物質耐性遺伝子などをまとめてダウンロードできる。

f:id:kazumaxneo:20191025212351p:plain

 

特定の種を検索する。ここではThermus aquaticusと検索。

特定の種を検索すると、結果がGenes、Marker genes(List of 40 universal, single-copy marker genes)、SpecI cluster Sequences、eggNOG、Antibiotic resistance、そしてData download(ゲノム配列など)、タブに分けて表示される。

f:id:kazumaxneo:20191025222120p:plain

おそらくプラスミド配列は含まれていないので注意する。

 

2、Representative genome sets

http://progenomes.embl.de/representatives.cgi

すべてのspecI種クラスターからの最高品質のゲノムを含むゲノムの非冗長コレクションを利用できる。

f:id:kazumaxneo:20191025222700p:plain

 

 

3、Explore genomes

http://progenomes.embl.de/genome.cgi

ゲノムを検索し、そのアノテーションを調べる。 分類名またはNCBI taxonomy IDを使用して、一致するゲノムのリストを表示する。

f:id:kazumaxneo:20191025222806p:plain

 

 

4、Genome classifier

http://progenomes.embl.de/classifier.cgi

40のuniversal, single-copy phylogenetic marker genesに基づいて生物を種クラスター(specI)にグループ化する(pubmed)。ゲノムシーケンスを送信すると、新しいゲノムを分離することができる(例えば、単離株またはメタゲノムからアセンブリされたゲノム)。

f:id:kazumaxneo:20191025223505p:plain

ゲノム配列をUPすれば、検出されたマーカー遺伝子群を元に分類結果を返してくれる。

 

追記

macos101.4.6のsafariでゲノム配列をダウンロードすると、safariが勝手に解凍し、その後ファイルサイズがおかしくなりました(マクロジェンとかのシーケンスデータをダウンロードした時に、safariブラウザだとファイルサイズがおかしくなることがあるのと似ている)。注意して下さい。chromeにすると正常にダウンロードされました。再現性があるか不透明ですが、念のため書いておきます。

引用

proGenomes2: an improved database for accurate and consistent habitat, taxonomic and functional annotations of prokaryotic genomes
Daniel R Mende, Ivica Letunic, Oleksandr M Maistrenko, Thomas S B Schmidt, Alessio Milanese, Lucas Paoli, Ana Hernández-Plaza, Askarbek N Orakov, Sofia K Forslund, Shinichi Sunagawa, Georg Zeller, Jaime Huerta-Cepas, Luis Pedro Coelho, Peer Bork
Nucleic Acids Research, Published: 24 October 2019


proGenomes: a resource for consistent functional and taxonomic annotations of prokaryotic genomes
Mende DR, Letunic I, Huerta-Cepas J, Li SS, Forslund K, Sunagawa S, Bork P

Nucleic Acids Res. 2017 Jan 4;45(D1):D529-D534  Epub 2016 Oct 24

 

関連