2021 1/15 ファイルサイズが大きいと受け付けないエラーが修正されたのを確認
ゲノム配列は何万もの微生物について利用可能である。これらの微生物のほとんどについては、分離された条件以外にその生理学についてはほとんど知られていない。また、酵母エキスのような複雑な基質を用いて単離された微生物の場合、その栄養所要量については何も知られていない。これらの微生物の生態学的役割や潜在的な利用法を理解するためには、原則としてゲノム配列から予測可能な生育要件を理解することが重要である。具体的には、微生物が20種類の標準アミノ酸を合成できるかどうかに焦点を当てる。
比較ゲノミクスツールの中には、微生物がどのアミノ酸を合成できるかを予測しようとするものもあるが(ref.1,2)、その予測は全く信頼できるものではない(ref.3)。例えば、最小培地で生育できる細菌でIntegrated Microbial Genomes tool(ref.1)をテストしたところ、これらの細菌はすべてのアミノ酸を合成できるにもかかわらず、平均して6つのアミノ酸に対してauxotrophic (wiki)になると予測されることが分かった(ref.3)。あるいは、ゲノムスケールの代謝モデルを用いてauxotrophiesを同定することもできるが、正確なモデルはほとんどの分類群では利用できない。著者らが知る限り、正確で自動化された補助病の予測が成功しているのは、よく研究されている分類群、例えば腸内細菌やシュードモナスのようなものだけである。定義された培地で生育する40種類の多様な腸内細菌の研究では、自動生成された代謝モデルは、そのうちの30種類の生育を予測することができなかった(ref.5)。
成長要件を自動的に予測することはいくつかの理由から困難である。第一に、多くの細菌は教科書に記載されている大腸菌や枯草菌の標準的な生合成パスウェイを使用していない。これらのバリアントパスウェイは、自動化ツールが頼りにしているデータベースからはしばしば欠落している(ref.3, 6)。変異したパスウェイや変異した酵素は発見され続けているため、ゲノム配列だけから微生物の増殖能力を正確に予測することはまだできないかもしれない(ref.3)。
第二に、タンパク質の配列から酵素活性を予測することは、その配列が実験的に研究されたどのタンパク質とも大きく異なる場合には困難である。カバレッジを高めるために、比較ツールは、実験的に研究されていないタンパク質のアノテーションを含む、アノテーションされたタンパク質のデータベースに依存していることが多い。残念ながら、GenBank、KEGG、SEEDなどのデータベースにある酵素アノテーションの多くは正しくない(ref.7, 8)。もう一つの問題は、比較ツールがベストヒット同定だけに依存していることが多く、これは融合タンパク質や分裂タンパク質にはうまく機能しない。例えば、あるタンパク質がXとYの融合であり、そのベストヒットがXである場合、そのタンパク質はXとアノテーションされ、Yは存在しないように見えるかもしれない。
著者らは、原核生物ゲノムのアミノ酸生合成パスウェイを再構築してアノテーションするツールGapMindを構築した。生合成パスウェイの理解が限られていることと、自動アノテーションの難しさを考えると、GapMindは生合成能力の有無を予測するものではない。その代わりに、現在の知識に基づいて各アミノ酸を作るための最も妥当なパスウェイを特定し、潜在的なギャップを強調する。例えば、あるステップの分岐した候補が特定された場合、そのステップは中程度の信頼度と表示され、そのステップが最も可能性の高いパスウェイの一部である場合はハイライトされる。ユーザーは結果を調べて、そのパスウェイが存在する可能性が高いかどうかを判断することができる。
GapMindの結果が類似タンパク質の機能に関する実験データに確実にトレースできるようにするために、GapMindは主に実験的に特徴づけられたタンパク質との類似性に依存している。GapMindはベストヒットを使用せず、融合タンパク質や分割タンパク質を正しく処理している。GapMindはウェブベースのインターフェースを持ち(http://papers.genomics.lbl.gov/gaps)、実行にはゲノムあたり約15秒かかる。
GapMindのデータベースには、数十種類のバリアント生合成パスウェイや酵素が含まれている。追加のバリアントを特定するために、定義された培地で生育し、大規模な遺伝子データが利用可能な35の細菌を対象にGapMindをテストした。その遺伝子データに基づいて、2つのバリアントパスウェイと数十種類の発散した酵素をGapMindのデータベースに組み込んだ。
とはいえ、まだまだ多くの変異パスウェイや酵素が発見されていない。このように、GapMindには”known gaps”のデータベースも含まれている。興味のあるゲノムに、類似の生物(最小限の培地で生育可能な生物)の”known gaps”なステップが欠落しているように見える場合、GapMindはそのステップを”known gaps”としてマークする。このようにして、ユーザーはそのギャップがまだ知られていない酵素やパスウェイによるものである可能性があることを知ることができる。
https://twitter.com/search?q=GapMind&src=typed_query
Our colleague Morgan Price just released GapMind for automated annotation of amino acid biosynthesis in #microbes https://t.co/SAJtMjqp8y pic.twitter.com/SfFY7ZN9n1
— @Deutschbauer_Lab (@DeutschbauerLab) 2019年6月5日
GapMindでは、17種類のアミノ酸の生合成と、芳香族アミノ酸の前駆体であるコリスマテートの生合成を記述している。GapMindには、他の3つのアミノ酸(アラニン、アスパラギン酸、またはグルタミン酸)の生合成は含まれていないが、これらはそれぞれ、中央代謝からの中間体(ピルビン酸、オキサロ酢酸、またはα-ケトグルタル酸)のトランスアミノ化によって形成されるためである。アミノ酸トランスアミナーゼはしばしば非特異的であり、それらの正確な基質をアノテーションすることは困難であるので、これらの3つのトランスアミノ化反応を触媒する酵素が存在し、アミノ酸を生成することができると仮定する。GapMindの主な目的は、微生物がどのようにして最小限の栄養素で成長できるかを理解することなので、異常な栄養要求に対応するパスウェイは含めていない(論文参照)。
http://papers.genomics.lbl.gov/cgi-bin/gapView.cgiにアクセスする。
Potential Gaps in Amino acid biosynthesis
データベースに登録されているバクテリアやアーキアのアミノ酸合成系パスウエイ(とそのギャップ)を探索したり、ユーザーがプロテオーム配列をアップロードしてアミノ酸合成系遺伝子が見つかるのか調べることができる。
ユーザーがプロテオーム配列をアップロードした場合も数十秒待てば結果は出力される。
探索結果。 赤字はlow confidence、?はknown gaps(写真下の注釈)。
アミノ酸をクリックすると詳細が表示される。このデータではL-histidine生合成系のhistidinol-phosphate phosphataseという酵素のFidelityが低い。histidinol-phosphate phosphataseのBest candidateの文字をクリックすると、
amino acid identityとカバレッジが低いことが分かる。
(高信頼性の候補については、80%のカバレッジを持つ特徴的なタンパク質との40%のアミノ酸同一性、または80%のカバレッジを持つキュレーションされたファミリーとの一致を必要とする)
引用
GapMind: Automated Annotation of Amino Acid Biosynthesis
Morgan N. Price, Adam M. Deutschbauer, Adam P. Arkin
mSystems, 2020
関連