macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

review article要約 16Sアンプリコンシーケンシングによる微生物コミュニティの定量

 


 いくつかの例を挙げると、微生物群集は、地球規模の元素循環、排水処理プラントでの廃棄物除去、およびバイオガスプラントでのメタン生産を促進する、多くの自然および人工生態系における隠れたチャンピオンである。これらのシステムを理解しモデル化するためには、分類群特有の存在量を正確に定量化することが極めて重要になる。存在量から、遺伝子存在量、ゲノム存在量、細胞数およびバイオマスを指すことができる。微生物生態学の研究では、存在量はしばしば16S rRNA遺伝子のコピー数に基づいているが、力学的な数学モデルでは微生物量を乾燥重量としてのバイオマス定量と考えている。

 微生物群集を研究するために、メタゲノミクス(Eloe-Fadrosh et al、2016年; Shakya et al、2013)、メタプロテオミクス(Kleiner et al、2017年)、フローサイトメトリー(Lambrecht)、蛍光in situハイブリダイゼーション(FISH)、およびアンプリコンシークエンシングなどの培養に依存しない様々な分子生物学に基づく技術が用いられている。アンプリコンシークエンシングでは、一般的に、16S rRNA遺伝子がコミュニティ構成同定に使用されるが、他の遺伝子、例えばメタン生成古細菌に焦点を合わせるためのmcrA遺伝子もまたターゲットとされている(Steinberg and Regan、2008)。 16S rRNA遺伝子アンプリコンシーケンシングは、相対的な分類群特異的遺伝子存在量についての情報を与え、これは株特異的16S rRNAオペロンコピー数情報を用いて相対的分類群特異的ゲノム存在量に変換することができる。相対的な遺伝子とゲノムの存在量は、一般的に微生物群集の構成と環境パラメータとの関係を分析するために使用される。

 しかしながら、総存在量が未知である場合(Props et al、2017)、相対存在量はあまり役に立たない(論文 追加ファイル1、A.1章参照)。絶対的なゲノム存在量は、個々の分類群についての定量的リアルタイムPCR(qPCR)によって(Yu et al、2005)および16S rRNA遺伝子アンプリコンシークエンシングをqPCRと組み合わせることによって一度に決定することができる(Dannemiller et al、2014)。アンプリコンシークエンシングおよびqPCRの両方が実質的なエラーを引き起こす可能性があり、その多くは文献で広く議論されてきた。ただし、相対的および絶対的なゲノム存在量について報告する場合、それらの影響は依然として無視されることが多く、体系的に修正されていない。

 本レビューでは16S rRNA遺伝子アンプリコンシークエンシングおよびqPCRの定量潜在的なエラーを批判的に評価する。さらに、これらの誤差を推定し最小化するためのツールとガイドラインを提供する。このレビューで説明されているエラーは、DNA抽出、PCR、NGSおよびqPCRデータの分析に関連している。さらに、実験結果の妥当性をチェックするための絶対存在量を推定する方法を提示する。最後に、著者らは絶対的な分類群特異的ゲノム存在量の分類群特異的細胞数への変換および数学的モデリングに使用されるべきバイオマスに関連するエラーに対処した。上記のエラーを説明するために、著者らは主に複雑な微生物群集によって動かされる嫌気性消化からの例を参照する。

 

アンプリコンシークエンシングとqPCRの両方に関連するエラー
2.1   DNA抽出効率関連エラーの回避、定量、および修正

  • 複雑なマトリックスから多様なコミュニティのDNAを抽出することは困難な作業である。溶解条件は、あらゆる種類の細胞を分解するのに十分過酷でなければならないが、DNAに損傷を与えてはいけない。回収DNA量は、試料マトリックス、種の形態、および抽出方法に依存する。
  • 例えば細胞壁および膜の違いにより株間のDNA抽出効率の差があると、偏った相対および絶対ゲノム存在量にバイアスをもたらす。このエラーは、既知および代表的な組成の微生物モックコミュニティをサンプルにスパイクし、さまざまなDNA抽出方法をテストすることによって最小限に抑えることができる(Willner et al、2012 link)。
  • モックコミュニティは、サンプルおよび大腸菌を代表とする様々な形態のものを含むべきである。モックコミュニティメンバーの最も存在量に偏りのない抽出方法を選択する必要がある。
  • 抽出バイアスを最小化した後、原核生物DNAの全体的な抽出効率を決定する必要がある。抽出中のDNA損失を無視した場合、サンプル中の絶対ゲノム量は過小評価される。
  • 効率推定のために提案された標準は、一般に、既知数の大腸菌細胞をサンプルにスパイクすることに頼っている。次いでゲノムDNA中または大腸菌のプラスミド上の標的遺伝子を定量する。全体の抽出効率は、検出された標的遺伝子の数をスパイクされた標的遺伝子の数で割ったものによって計算される。大腸菌がすでに分析対象のコミュニティのメンバーである場合は、全体の抽出効率を計算する前に、サンプルに含まれている元々存在していた標的遺伝子を差し引く必要がある。大腸菌のスパイクを牛の糞尿に使用した場合、全体の抽出効率は、さまざまな抽出方法で38〜99.97%であった(Lebuhn et al、2016)。抽出効率が38%だと、絶対ゲノム存在量に263%の誤差をもたらすことになる。
  • DNA抽出の前に、死細胞由来の細胞外DNAを除去するための追加の工程を、例えばpropidium monoazideを用いて実施することができる(Emerson et al、2017)(参考)。より正確な結果につながる一方で、混濁試料へのpropidium monoazideの適用は、実際には依然としてチャレジングなことである(Kirkegaard et al、2017 pubmed)。
  • 結論として、DNA抽出効率の種間差は不正確な相対ゲノム存在量を引き起こし得る。このエラーは事後修正できない。このエラーを最小限に抑えるために、モックコミュニティを使用して最適なDNA抽出方法を選択できる。

 

2.2   PCR関連バイアスの回避

  • PCR増幅は主要なバイアス源となり得る。これらのエラーは、PCRテンプレートの特性(テンプレート濃度、GC含有量)、プライマーの選択(プライマーの範囲とミスマッチ)、ポリメラーゼの選択、およびPCRプロトコル(アニーリング温度とPCRサイクル数)と関連している。

 

2.2.1   PCRテンプレートの特性

  • 阻害剤がサンプル中に存在する場合、DNAテンプレート濃度を希釈するとPCR効率に良い影響を与える。しかしながら、アンプリコンシークエンシングにおいてDNAテンプレート濃度を希釈すると、レアな分類群が除外され、したがって観察される種の豊富さが減る(Wu et al、2010)。DNAテンプレート濃度が低すぎることによる潜在的なエラーは、レアな分類群について推定も補正もすることができず、したがって避けるべきである。
  • 特定の分類群のテンプレートDNAのGC含有量が多いと、PCR中の初期変性効率が悪くなり、増幅効率が低下するため、この分類群が過少になる可能性がある(Laursen et al 、2017 link)。
  • ゲノムGC含有量の違いによって生じる誤差は、他の誤差源と絡み合っているため推定するのが困難であり、最大1桁以上の誤差になり得る。 PCR中の初期変性時間を長くするとこの誤差を減らすことができるが、それを完全に抑制することはできない(Pinto and Raskin、2012)。

 

2.2.2   プライマーカバレッジ

  • 複雑な微生物群集を標的とするには、サンプル中に存在するすべてのバクテリアおよびアーキアの16S rRNA遺伝子配列をカバーするプライマーペアが必要になる。いくつかの研究によって示されるように、両方のドメインを等しくうまくカバーするユニバーサルプライマーペアはない(Baker et al、2003; Bru et al、2008; Takahashi et al、2014)。
  • 提案された1つの解決策は、各domainに対して別々のプライマーペアを使用することである(Fischer et al、2016 link)。さらに、すべてのバクテリアの全phylaをカバーするプライマーペアも利用可能ではなく(Klindworth et al、2013 link)、実行可能でさえないかもしれないので、バクテリアではいくつかのプライマーペアの使用が推奨される。
  • 500個のバクテリア16S rRNA遺伝子配列の分析から、非常に限定された領域(788〜798)を除いて、絶対的な塩基保存は連続では4塩基以下に制限されることが明らかになった(Baker et al、2003 link)。プライマーは一定の長さを有する故、全ての原核生物の16S rRNA遺伝子配列をカバーするように設計することはできない。
  • 非常に普遍的なプライマーペアを設計するために、Silva TestPrime(HP) のようなツールを使用してin silicoカバレッジ が計算できる。使用例はKlindworth et al、2013 (link)。
  • しかしながら、予測カバレッジと測定カバレッジ比較から、いくつかの分類群について高い不一致が示されている(Claesson et al、2010; Fischer et al、2016; Thijs et al、2017)。従って、In silicoカバレッジは、In situカバレッジを確実に予測することはできず、したがって、不十分にカバーされた分類群を事後修正するために適用することはできない。
  • プライマーのカバレッジは、プライマーと標的配列の配列類似性によって決定される。プライマーと標的とのミスマッチは、PCR増幅効率を実質的に低下させ(最大1000倍)、特異的分類群の有意な過少表示につながる可能性がある(Bru et al、2008 link)。
  • 多くのシーケンシング技術はリード長に制限がある。そのため、通常は16S rRNA遺伝子の可変領域の限られた数、例えばV3 / V4領域(Albertsen et al、2015)またはV1-V3領域(Cai et al、2013)のみがターゲットとなる。
  • 16S rRNA遺伝子データベース研究では、部分領域のターゲティングは、完全長配列よりも低い系統学的解像度を提供していた(Kim et al、2011 link)。対照的に、別の研究では、全長配列とV1からV4領域を標的とした場合の比較では、同様の群集構成が報告されている(Kraková et al、2016 link)。これらの矛盾する結果より、複雑な微生物群集を特徴付けるためにどの可変領域を扱うべきかについての明白な推薦はない。
  • rRNA遺伝子の代わりにSSU rRNA分子を標的とする最近の方法は、プライマーバイアスのない完全長のrRNA遺伝子配列を何百万という結果とした(Karst et al、2018 link)。しかしながら、この方法は面倒で複雑であり、したがって標準的方法としてはまだ適用できない。
  • 結論として、(i)バクテリアまたはアーキアのいずれかに特異的でありそして各domainを別々にターゲットにするプライマーペアを使用すること、および(ii)各domainに対して異なる可変領域をターゲットにした2つのプライマーペアを使用することが賢明である。

 

2.2.3   ポリメラーゼの選択

  • 伸長に使用されるDNAポリメラーゼは、それらのFidelityおよび校正活性によって特徴付けられる。置換エラー率は、2kb以下あたり1塩基かそれ以下の範囲内である(Potapov and Ong、2017 link)。このエラー率は、通常のアンプリコン長300〜500bpを考慮すると無視できる。
  • 置換エラーのプロファイルが知られているので、このエラーは、理論的に、事後的に修正出来得る(Shagin et al、2017)。ただし、そのようなバイオインフォマティクスツールはまだ利用できない。
  • ポリメラーゼのproofreading活性はプライマーeditingにつながる可能性がある(Gohl et al、2016)。これがPCRの早期に起こる場合、プライマー標的ミスマッチを示す分類群は効率的に増幅されるようになるため、上記のようなミスマッチに起因する可能性のある1000倍のバイアスは回避される。それゆえ、高い忠実度および校正活性を有するポリメラーゼが望まれる。

 

2.2.4   PCRプロトコル

  • PCRアニーリング温度が微生物群集の相対存在量に与える影響についての研究は矛盾する結果を示している。鶏盲腸サンプルのような複雑な群集ではアニーリング温度を下げることによる有意な影響は見られなかったが(Sergeant et al、2012 link)、活性汚泥でOTU数の増加が観察された(Albertsen et al、2015 link)。その効果は明ら​​かにプライマーと鋳型DNA間の配列相同性に依存している。
  • プライマーとテンプレートが完全に一致する場合、アニーリング温度を下げても2つのモックバクテリアPCR産物比には影響がなかったが、1つミスマッチがある場合は、2つのバクテリアDNAテンプレートの最初の1:1比からの指数関数的偏差が報告された (Sipos et al、2007)。結論として、ミスマッチはコミュニティ構成の偏りにつながる可能性があるため、高いアニーリング温度は避けなければならない。
  • PCR産物に対するPCRサイクル数の影響もまた曖昧である。活性汚泥については影響は見られなかった(Albertsen et al、2015 link)。これは、PCRサイクルが増えると見かけの豊富さが増すことを報告している別の研究とは対照的である(Ahn et al、2012 link)。しかしながら、これはPCRの成分が制限的になったときに起こると思われるキメラ配列のような PCRアーティファクトの形成に起因し得るかもしれない。
  • キメラ配列は、伸長が1回のPCRサイクル内に完了せず、次のサイクルでそのDNAフラグメントがサンプル中に存在する別の分類群の鋳型DNAに結合し、プライマーとして働くときに生成される。
  • 最大45%のキメラを有するライブラリーが見出されたので、キメラ配列はPCR産物の実質的な部分であり得、これがさらなる分類群として誤って解釈され得る(Ashelford et al、2006 link)。キメラ形成は複雑なコミュニティでは定量化できないため、関連するエラーを修正することはできない。結論として、PCRサイクル数を制限することによってキメラ形成を最小限に抑え、そして以下に論じるように適切なシーケンス分析によって残りのキメラを最大限フィルタリングすることが有益である。
  • 別の種類のPCRアーティファクトはキメラより頻度が低いヘテロ配列間のハイブリダイゼーションから生じるヘテロ二本鎖分子である(Qiu et al、2001 link)。 DNAはシーケンシング前に変性されるので、イルミナのシーケンシングやパイロシーケンシングのような一般的なNGS法で得られる相対量には影響しない。この結論は、SMRT PacbioシーケンシングまたはOxford nanoporeシーケンシングのように、シーケンシングにdsDNAを使用する方法では異なってくるかもしれない。ヘテロ二本鎖の形成は、上述のようにPCRサイクル数を減らし、高DNAテンプレート濃度を避けることによって減らすことができる(Thompson、2002)。

 

2.3   16S rRNAオペロンコピー数の変動に関連したエラーの修正と定量

  • 相対的および絶対的な分類群特異的なゲノム存在量の定量化に16S rRNA遺伝子を使用することの先天的なバイアスは、株特異的な16S rRNAオペロンコピー数の変動で(Kembel et al、2012 link)、バクテリアについては1-17コピー、アーキアについては1〜4コピー報告されている(Stoddard et al、2015 link)。
  • 特定の分類群ゲノム当たりでより高い16S rRNAオペロンコピー数があると、この分類群のより高い相対的および絶対的ゲノム存在量として現れるだろう。したがって、例えば、rrnDBデータベースを使用することによって、ゲノムあたりの株特異的な16S rRNAオペロンコピー数の補正が必要である(Stoddard et al、2015 link)。
  • ゲノムごとの株特異的な16S rRNAオペロンコピー数の補正は、データがすべての株について利用可能ではないこと、およびOTUを分類学的に株レベルでアサインできないため不完全である。株特異的な数が欠けている場合、それぞれのより高い分類ランクについて中央値または平均コピー数のいずれかを使用することができる。しかし、これは不正確さにつながる。
  • ここでは、株特異的な16S rRNA遺伝子の補正の効果を説明するために、3つのデータセットを例として説明する。A(Klassen et al、2017)、B(Maus et al、2017)およびC(Müller et al、2016)を使用した(詳細は、追加ファイル1、章A.2を参照)。本発明者らの例では、コピー数補正により、相対的16S rRNA遺伝子存在量と比較して相対的ゲノム存在量が平均で22%変化したが、すべての分類群について一様ではなかった(論文 図1a)。(以下省略)

 

アンプリコンシークエンシングにのみ関連するエラー
3.1   シーケンシング技術が相対的遺伝子量に与える影響

  • 454パイロシーケンシング、Illumina、IonTorrent、およびPacBioなどのNGSプラットフォームでは、DNAのシーケンスに異なる原則が採用されている(Goodwin et al、2016)。これは次に、リード長とクオリティ、ならびにシーケンシングデプスに実質的に違いをもたらし、それはコミュニティ構成推定に影響を与える。
  • シーケンシング技術により配列長が制限されているので、16S rRNA遺伝子の可変領域のサブセットのみが標的とされる。これは、上記のようにプライマーの選択と強く関連している。
  • リードのクオリティは、シーケンシングプラットフォームに大きく依存している。例えば、頻繁に使用されるMiSeq Illuminaシーケンスプラットフォームは、1%未満のシーケンスエラー率に関連している(Schirmer et al、2016 link)。
  • NGSプラットフォームのシーケンシングデプスは、そのリード数によって異なるが、通常は数千から数百万リードである。より多くのリードが読まれると、よりまれな分類群が検出され、より高い見かけの豊富さが生み出される(Claesson et al、2010 link)。それにもかかわらず、バイオインフォマティック分析では、まれな分類群検出の効率と人為的な分類群(誤ったシーケンス)除去との間にはトレードオフの関係がある。さらなる議論については(Zhan and MacIsaac、2015 link)を参照のこと。
  • 稀な分類群とはさておき、異なるシーケンシングプラットフォームで同じプライマーペアを適用した場合、同じ分類群が検出された(D'Amore et al、2016; Tremblay et al、2015)。
  • 結論として、まれな分類群を標的とするために十分なシーケンシングデプスが必要であり、シーケンシングエラーはマイナーなエラーソースとしてのみ考えられる。しかしながら、リード長による限界のために、シーケンシングプラットフォームはNGSプラットフォーム自体よりも大きな影響を与えるプライマーの選択を制限する(Hiergeist et al。、2016)。

 

3.2   NGSデータ分析に関連したエラーの回避

  • ウェットラボの手順によるバイアスに加えて、データ処理中にエラーが発生する可能性がある。アンプリコンシーケンシングデータの分析のために、いくつかのパイプラインが利用可能である。異なるパイプラインはかなり異なる相対的な16S rRNA遺伝子量をもたらす(Golob et al、2017; Plummer and Twin、2015; Werner et al、2012)。ここでは、アンプリコンシーケンスデータの解析中に発生する可能性があり、特定の解析パイプラインに限定されない一般的なバイアスに焦点を当てる。

 

3.2.1   低クオリティおよびキメラ配列のフィルタリング

  • rawリードのクオリティ管理、すなわち低クオリティおよびキメラ配列のフィルタリングは、すべてのパイプラインに共通している。キメラ配列は全てのリードのかなりの部分を占めることがあり得るので、それらの除去は重要である。
  • 培養細菌および古細菌の16S rRNA遺伝子配列を含むデータベース(e.g., the Gold reference collection)を使用して、キメラについて配列をフィルタリングすることができる。しかしながら、すべてのキメラ配列がこのアプローチによって検出されるわけではない(Ahn et al、2012)。さらに、このデータベースによるキメラ検出は、微生物コミュニティがまだ培養されていない有機物を含む場合にはうまく機能しない(Schloss et al、2011)。
  • キメラ検出効率を高めるために、場合によりデータベースの検出と組み合わせて、新たな検出方法を適用することができる(Schloss et al、2011 link)。しかしながら、まだ全てのキメラを検出することができるわけではないので(Haas et al、2011)、上記のようにPCR条件を適切に調整することによってキメラ形成を減少させることが重要である。
  • 結論として、キメラ形成は、最初にPCR条件を最適化することによって減少させる必要がある。残りのキメラ配列の全部ではないがかなりの部分をデータ分析中に除去することができる。多くの記述されていない微生物を含む微生物コミュニティについては、参照ベースの検出と任意に組み合わせたde novo検出方法を適用すべきである。

 

3.2.2   OTUクラスタリング

  • フィルタリングされたシーケンスは、シーケンスの類似性に従ってOTUにまとめられる。クラスタリングのためには、一般に認められている種の定義(Callahan et al。、2017 link)に基づくのではなく、arbitraryな16S rRNA遺伝子配列類似性の閾値97%が用いられる。それゆえ、異なる種が同じOTUにアサインされたり、または、1つ​​の種の16S rRNAオペロンのバリエーションにより1つ​​の種がいくつかのOTUにアサインされることがあり得る。
  • クラスタリングの後、OTUごとに1つの代表的なシーケンスが選択され、分類学的にアサインされる。各OTUに対する代表的なシーケンスの選択の効果は、論文 図1bに示されている。 QIIME分析における標準として、OTUを定義するためにこれまで使用されてきたcentroid sequence (*1)が代表として取られる。あるいは、最長で最も豊富な配列を選択することができる。
  • OTUあたり最も豊富な配列が選択された場合、データセットCを除いて、相対16S rRNA遺伝子存在量は平均0.3%変化する。ここでは、5%の平均変化は、未分類OTUの割合が高いことに起因している。
  • 誤ったアサインをもたらすOTUクラスタリングのための任意の閾値設定を回避するために、DADA2のような最近開発された分析パイプラインは、OTUクラスタリングを完全に回避し、代わりに1ヌクレオチド配列差までの配列変動を説明する(Callahan et al、2016)。
  • OTUクラスタリングアプローチおよび正確な配列推論から導き出された例示的なデータセットのコミュニティ組成は、相対的な16S rRNA遺伝子存在量の比較と平均45%異なっていた(論文図1b参照)。腸ミクロバイオームサンプルについても同様の差異が報告された(Allali et al。、2017)。
  • 結論として、本著者らのデータセットに基づいて、OTUクラスタリングフリーアプローチは、任意の配列類似性閾値の設定を回避するために使用されるべきである。 OTUクラスタリングが必要な場合は、最も豊富なシーケンスを選択しないでください。代わりに、各OTUのcentroid sequenceを代表シーケンスと見なす必要がある。

 

3.2.3   taxonomyアサインメントに対する16S rRNAデータベースの影響

  • 代表的な配列を選択するか正確な配列を推論した後、これらはtaxonomicデータベースに対して分類される。データベースの選択は観察されたコミュニティ構成に強い影響を与えた(論文 図1c)。
  • Greengenes  taxonomy (HP) の代わりにSILVAまたはSILVAベースのMiDAS(Microbial Database for Activated Sludge)を使用した場合、相対的な16S rRNA遺伝子量は平均で9%変化した。以前の報告はまた、分類学的割り当てのための異なるデータベースが異なるコミュニティ構成を与えることを示した(Werner et al、2012)。
  • 最新のGreengenesバージョンは2013年のものであり[ref.25]、最近発表された微生物の16S rRNA配列を欠いているため、データセットによっては問題がある。
  • SILVA、RDP、そしてMiDASはもっと最新のものである。 RDPデータベースを使用すると、本exampleデータセットの場合、分類されていないOTUの数が大幅に増加するため、お勧めできない。 MiDASデータベースはSILVAデータベース上に構築されており、活性汚泥、嫌気性消化槽、および流入廃水中に存在する分類群に合わせて修正されており(McIlroy et al、2015 link、McIlroy et al。、2017 link)、このようなデータセットと嫌気性digesterのサンプルに向いている。
  • MiDASと同様に、他の専用のデータベースが存在する。例えば、ヒトの腸内(Ritari et al、2015 link)、ヒト口腔内(Chen et al、2010 link)、およびミツバチの腸内(Newton and Roeselers、2012 link)微生物コミュニティのデータベースが存在する。

 

4.   qPCRデータ解析にのみ関連するエラー

  • qPCRについては、ハイブリダイゼーションプローブ(TaqMan(TM)プローブとも呼ばれる)およびSYBR Greenなどのインターカレート色素の2つのレポーター系が一般的に使用される(Smith, and Osborn、2009 link)。インターカレート色素は、すべてのアンプリコンに非特異的に結合する。したがって、PCR後のmelting curve分析は、標的遺伝子のみが定量化され、プライマー二量体などの非特異的PCR産物は定量化されていないことを確認する必要がある(Smith、and Osborn、2009)。
  • ハイブリダイゼーションプローブは、標的遺伝子上の保存された部位に結合するように設計されており、確実に標的遺伝子のみが定量される(Smith、and Osborn、2009)。しかしながら、そのような保存された部位は、潜在的に未知のメンバーとの混合コミュニティの様々なメンバーに存在する標的遺伝子については存在しないかもしれない。ここでは、プローブはすべてのメンバーの16S rRNA遺伝子に不均等に結合し、偏った結果につながる可能性がある。
  • qPCRによる絶対遺伝子定量のためには、外部スタンダードが必要になる。スタンダードの蛍光と比較したサンプルの蛍光から、サンプル中の16S rRNA遺伝子コピー数を決定する。 qPCRスタンダードは、関心のある微生物群の単一のメンバーまたはメンバーの混合物のいずれか由来の、既知の数の16S rRNA遺伝子を含む。
  • 16S rRNA遺伝子は、精製PCR産物またはプラスミドインサートの形態であり得る。プラスミド標準は線状化でき、それは微細藻類を定量するときにより正確な結果を与えた(Hou et al、2010 link)。
  • その研究において、線状化してないスタンダードだと、標的遺伝子コピー数を777%過大評価した。しかし、2つのバクテリア種と2つのアーキア種を対象とした研究では、環状プラスミドを用いた系統的な過大評価は見られず、線状化、スーパーコイルまたはニックプラスミドまたは精製PCR産物いずれを用いても同様の絶対遺伝子数が得られた(Oldham and Duncan、2012 link)。 
  • 理想的には、コミュニティの構成を表す新しいスタンダードは各サンプルから個別に作成される。しかしながら、これは資源集約的であり、それ故、単一種からのスタンダードを使用することは一般的である。しかしながら、例えば、10%増幅効率が低いと、 275%過大評価された絶対遺伝子コピー数を生じ得る(Pérezet al、2013 link)。より低い増幅効率はまた、サンプルマトリックス中の阻害剤によっても引き起こされ得る。
  • 全ての個々の試料およびスタンダードの増幅効率は、例えば、文献に記載されているように(Brankatschk et al、2012)、LinReg PCR Programを用いて決定することができる。増幅効率の差が検出された場合、それを例えば一点較正によって(Brankatschk et al、2012)または希釈したDNA鋳型濃度で分析を繰り返すことによって補正する必要がある。一点較正方法を適用するための便利なスプレッドシートは、追加ファイル2に提供されている。このスプレッドシートはまた、効率の差の誤差および上述した他の誤差を推定するために使用することができる。
  • qPCRにおけるスタンダードとサンプル間の増幅効率の違いの問題は、スタンダードを必要としない、デジタルPCR(dPCR)を使用することによって回避することができる(Kim et al、2015 link)。
  • 単一の分類群の絶対的なゲノム存在量は、特異的プライマー対を用いたqPCRによって得ることができる。しかしながら、混合培養において、標的とされたもの以外の分類群がさらに増幅される可能性があり、不正確な定量結果をもたらす。ハイブリダイゼーションプローブの使用はこの問題を軽減することができる。さらに、同じプライマーペアを用いたアンプリコンシークエンシングを用いて、単一の分類群の絶対的ゲノム存在量に対する非特異的増幅の影響を同定および補正することができる。
  • qPCRデータの公表は、“minimum information for publication of quantitative real-time PCR experiments”(MIQE)に従うべきである(Bustin et al、2009 link)。特に、qPCRの生データの公表がに望まれる。これは、公表後の誤差推定および増幅効率の差に対する補正を可能にするためである。
  • 結論として、qPCRには、合計で数桁の差を引き起こす可能性のあるエラーソースがいくつかある。スタンダードとサンプルの増幅効率の違いは無視されることが多いが、1点キャリブレーションで補正できる。線状プラスミド、環状(スーパーコイルまたはニック入り)プラスミドまたはPCR産物のいずれかを原核生物のスタンダードとして使用することができる。上記のエラーを回避するのに役立つ決定木が論文図2に提供されている。

 

5.   環境パラメータに基づく妥当性チェックによるエラー識別

  • 絶対的な分類群特異的ゲノム存在量の定量は、数桁までの誤差を生じ得る。したがって、妥当性チェックは、結果を検証し、誤ったデータに基づく結論を回避するために強く望まれる。
  • プロセスパラメータおよび環境条件に基づいて絶対バイオマス濃度を推定するためにいくつかの方法が利用可能である。嫌気性消化モデルNo.1(Batstone et al、2002)などの数学モデルを使用して微生物バイオマスを予測することができる。ただし、そのようなモデルでは入力として詳細な情報が必要である。情報が乏しいシステムには、ブラックボックスアプローチ、特に熱力学的考察を含む方法がより適している(Heijnen、2013; Kleerebezem and Van Loosdrecht、2010 link)。
  • 単純な妥当性チェックの例を論文図3に示す。これらの推定は、任意の微生物細胞の異化は電子輸送の最大速度によって制限されるという仮定に基づいていた(Heijnen、2002)。この仮定の下で、蒸解缶で測定されたメタン量を生成するのに必要な最小セル数を計算した(詳細については、論文追加ファイル1、セクションA.4を参照)。細胞数の遺伝子コピーへの変換のために、各細胞は保守的に1つのアーキア16S rRNA遺伝子コピーを含むと仮定された。
  • アーキアの16S rRNA遺伝子のコピー数は、Nettmann et al (2010) (link) の推定最小コピー数よりかなり上にある。しかし、Lee et al (2011) (link) によって測定されたコピー数は、推定された最小値よりも桁違いに小さい。これは、それらの結果が、サンプリングされた蒸解カンの絶対量を過小評価している可能性が高いことを示している。その研究ではDNA抽出効率は考慮されていなかったが、このことがコピー数が信じられないほど低かった理由なのかもしれない。
  • この例は、もっともらしい定量結果を識別するために、どのようなシンプルな妥当性チェックが使用できるかを示している。そのような妥当性チェックはメタン生成環境に限定されない。例えばKleerebezem and Van Loosdrecht(2010)は、電子受容体として酸素、硝酸塩、硫酸塩、二酸化炭素のいずれかを使う、61の有機化合物のバイオマス収量推定値を示した。

 

6.   ゲノム存在量を細胞数およびバイオマスに変換することに関連するエラー

  • 理想的には、分類群特異的なゲノム存在量をより具体的な細胞数に変換することができる。しかしながら、これは倍数性に関する分類群特異的な情報、すなわち細胞当たりのゲノムコピー数を必要とする。原核生物は歴史的にmonoploid(細胞あたり1ゲノムコピー)と考えられてきた(Pecoraro et al、2011)。しかしながら、最近のいくつかの研究では、oligoploid(1細胞あたり10ゲノムコピー未満)およびpolyploid(1細胞あたり10ゲノムコピー以上)のアーキアおよびバクテリアが発見され、monoploidの原核生物はむしろ例外的であると思われる(Soppa、2014)。
  • 倍数性の補正は困難である。倍数性は、1つの属、例えばDesulfovibrio内およびNeisseria内でさえ異なり得る(Pecoraro et al、2011)。さらに、種の倍数性は、細胞周期の間に1から2の間で変わるだけでなく、異なる増殖期の間で大きく異なることがありえる。例えばMethanocaldococcus jannaschiiの、exponential phaseの細胞あたり3から15コピーから、stationary phaseの細胞あたり2から4ゲノムコピーの報告がある(Pecoraro et al、2011 link)。
  • 分類群特異的な倍数性は、純粋培養にて、qPCRと細胞計数と組み合わせることによって実験的に決定されている(Pecoraro et al、2011)。複雑なコミュニティでは、qPCRをfluorescence-activated cell sortingと組み合わせることができるだろう。
  • フローサイトメトリーに由来する絶対細胞数を分類群特異的な16S rRNAゲノム存在量と組み合わせることによって、複雑なコミュニティから分類群特異的細胞数を導き出すことが最近示唆された(Props et al、2017 link)。しかしながら、この方法は、すべての分類群で同じ倍数性を必要とし、原核生物において見出される倍数性の高い分散(Pecoraro et al、2011)を考慮できそうにない。
  • 上記のように、mechanistic models は微生物を細胞ではなくバイオマスと見なすことが多いが、種が豊富で複雑な微生物コミュニティの分類群特異的なバイオマスを実験的に決定することは困難である。それにもかかわらず、原核細胞の質量は数桁の大きさで変化する可能性があるため、細胞数とバイオマスの違いを無視してはならない(Loferer-Krößbacheret al、1998 link)。
  • 分類群特異的バイオマスは、デジタル画像分析と組み合わせたFISHによって決定された細胞体積から推測できる(Daims、2009)。 FISHに加えて、メタプロテオミクスが分類群特異的バイオマス定量のための方法として最近提案されている(Kleiner et al、2017)。
  • 結論として、細胞あたりの分類群特異的平均ゲノムコピー数およびバイオマスは分類群間で実質的に異なり得、そしてこの事実を無視すると、最大10,000%の誤差をもたらし得る。ゲノム量と細胞数およびバイオマスとの間の正確な変換は依然として課題である。

 

結論

 相対的および絶対的な分類群特異的ゲノム存在量は、微生物コミュニティの動態を研究するための重要なパラメータだが、PCRに基づくアプローチによるそれらの定量は、数桁に達する可能性があるいくつかの潜在的な誤差を有する。 これらのエラーとそれらを回避または軽減するための推奨される対策は論文表1にまとめている。多くのエラーは、適切なデータ分析によってすでに軽減されている。 他の人たちはDNA抽出効率を評価するために既知の微生物のスパイクのような追加の実験的努力を必要とする。 バクテリアアーキアに異なるプライマーペアを使用することは正確な分析には不可欠だが、かなりの実験的努力が必要となる。 分類群特異的ゲノム存在量の細胞数およびバイオマスへの正確な変換は、それらを数学モデルで使用するために重要であるが、依然として課題がある。 フローサイトメトリー、FISHおよびメタプロテオミクスは、将来この問題を解決するために貴重な、培養に依存しない方法で貢献をもたらすかもしれない。

 

論文

PCR-based quantification of taxa-specific abundances in microbial communities: Quantifying and avoiding common pitfalls

Bonk F, Popp D, Harms H, Centler F

J Microbiol Methods. 2018 Oct;153:139-147

 

*1

http://readiab.org/book/0.1.3/2/5#1.3 より

For example, if we have a group of 16S rRNA reads that are within 97% identity to one member of that cluster (the cluster centroid) we may assume that the taxonomic origin of the cluster centroid is the same as the taxonomic origin of all of the sequences in the group. This is an assumption - it may or may not be true - but it is a necessary evil given the current technology.