macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

原核生物においてゲノム配列を種のタイプ標本(型)として使えるか

2024/08/28 誤字修正、タイトル修正

 

2024年8月現在、細菌のゲノム配列は新種記載のためのタイプ標本(型)として認められていません。細菌の新種を報告するには、従来通り、純粋培養した菌を特徴づけ、株を異なる国の2つ以上の公的なCulture Collectionに寄託する(寄託証明書が必要)などの手続きを経て、機関誌に新種記載の論文を投稿するか、他の雑誌に投稿後に手続きを進める必要があります(正しくはこちら)。この厳格なルール(あるいは研究者のモラル)に加えて、2018年からは、IJSEMジャーナルに論文を投稿する際に、微生物株のゲノム解析が義務付けられるようになりました(坂本, 2023)。では、なぜ細菌のゲノム配列が新種記載の型として認められていないのに、このような義務があるのでしょうか?

例えば昆虫の分類では、タイプ標本を使って特徴を比較できますし、微小な真核生物でもスライドを用いて特徴を記述することが可能です。しかし、目に見えない細菌や古細菌に対してはこのようなタイプ標本が利用できません。その代わりに、16S rRNA遺伝子、MLST、dDDH、ANI(紹介)などの遺伝子やゲノム配列を用いた分類手法が発展しており、これによりゲノム配列から新種か既知の種かを高い精度で判別することができます。ゲノム配列の決定が義務付けられたのは、このような背景があると考えられます。また、ゲノムにコードされた遺伝子から株や種を特徴づけるための重要な情報をマイニングできる可能性もあります。

新種登録にあたっては、菌を純粋培養もしくはそれに近い状態まで濃縮し、一連のテストを実施する必要があります(参考)。分離が不十分であれば、結果を正しく解釈することができません。このため、純粋培養という制限が、地球上の原核生物の9割以上を占めるとされる純粋培養が難しい種の研究を遅らせている現状があります。

もしゲノム配列のみで新種のタイプとして利用できるようになったとしたらどうでしょう?純粋培養の制約が回避できると、メタゲノムアセンブリからBinning操作によってリカバリーされたMAG配列(*1)を登録できる可能性が出てくるため、validな種の数は爆発的に増える可能性があります。しかし、実現するには課題があり現状難しいと思います。ゲノム配列情報から細菌の表現型を正確に予測するのは非常に難しく、新種記載の論文を書くことが困難だからです。仮に書けたとしても、誤った記述になるリスクが高いでしょう。

新種記載にあたってICNPが要求する情報(:ICNPがスコープとしているもの)を列挙します。

https://www.microbiologyresearch.org/content/journal/ijsem?page=about-journal

Key information about the new Taxon:

  • Genome sequences of the type strains of prokaryotes
  • 16S rRNA gene sequencing
  • Isolation, habitat and sample description
  • Morphology and Growth Conditions
  • Physiology
  • Chemotaxonomy
  • Species description (Protologue)
  • Author statements

上の2つはゲノムが解読できればクリアできますが、3つ目以降が問題となります。3つ目の「分離、環境およびサンプルの記述」については、サンプルの単離場所や緯度経度、単離日などのメタデータを詳細に取得することで満たすことができるかもしれません。しかし、4つ目の「形状」については、ゲノム配列から細菌の形状を予測するのは難しいと思われます(顕微鏡観察結果から分類する試みは報告がある)。6つ目の「化学分類」では、シーケンシングではなく、近縁のタイプ株とのMALDI-TOFスペクトルの比較が望ましいとされており、シーケンサ―以外の分析機器も要求されます。

さらに、酵素活性のような比較的予測が容易だと考えられる特性ですら、ゲノム配列から完全に予測することはできません。実際に、その反応を触媒する遺伝子が存在していても、必要な栄養素が供給されなければ増殖しない細菌も酵素によっては報告されています(;遺伝子で分類するか表現型で分類するかという問題が生じる)。このように、現時点ではゲノム配列のみでは新種の原核生物を正確に記述することはできないようです。

一方で、もしゲノムから原核生物の表現型を高精度で予測できるようになれば、ゲノム配列だけで新種のタイプとして認めることができるかもしれません。しかし現状それは困難です。従って、種の判定に有用なゲノム配列の登録を義務付けつつ、分離培養した菌を詳細に記述する現在の手順が、依然として正しいものだと私は考えています。将来、仮にゲノム配列を原核生物のタイプ標本(型)として使っても良いだろうと多くの研究者が認め、ルールを改定するコンセンサスが出来上がるとしたら、その時は新たな基準やガイドラインの策定が必要になると思われます。皆さまはどう思われますでしょうか。

 

明日は関連する話題でもう1つ書いてみます。

引用

Prokaryotic taxonomy and nomenclature in the age of big sequence data

Philip Hugenholtz, Maria Chuvochina, Aharon Oren, Donovan H. Parks & Rochelle M. Soo 

The ISME Journal volume 15, pages1879–1892 (2021)

 

微生物の学名とその記載方法について

https://www.jstage.jst.go.jp/article/nogeikagaku1924/56/11/56_11_1087/_pdf

 

*1 MAG配列: Metagenome Assembled Genomeのこと。メタゲノムから配列特量の類似性を指標としたクラスタリングなどの操作を行い、1つの菌株に相当するゲノムを取り出すことで得られる。bin配列とも呼ばれる。しかし精度はあまり高くないことが多く、BASTA(紹介)などを使ってcontig単位で分類が一致しているか確認を行うか(サンプルが少数の時に限られる)、checkMなどの実装を使って原核生物で保存されたシングルコピーの遺伝子が厳密に1コピーずつだけ見つかるか後から確認することが多い。さらにカバレッジの均一性やGCの均一性などを調べることもある。しかし後処理ではbinningで弾かれたcontig配列(例えばHGTに由来してGC含量が異なる領域など)を回復させることはできない。したがって、特にショートリードベースのMAGの多くは、単離ゲノムのドラフトゲノムよりもっと品質の低い、すなわち"低品質ドラフトゲノム配列"である可能性がある(複雑な菌叢から得たMAGほどこの傾向があると考えられる)。ロングリードアセンブリはこれを劇的に改善できる可能性があるが、低存在度のMAGをリカバリーするにはスループットが低いため不利となる(例えばショートリードでランダムに10x読める菌DNAがあるとする。リード数のスループットが1/100のロングリード技術だと、この菌DNAはランダムだと0.1xしかシークエンシングされない。したがって低存在どの菌の再構成にはスループットが低いロングリードシークエンシング技術は不利となる。)。