macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

モデルベースでDNA-DNAハイブリダイゼーションを計算するwebツール GGDC

2020 7/28 追記、タイトル修正

  

 DNA-DNAハイブリダイゼーション(DDH)は、古細菌および細菌種の描写のための分類学的ゴールドスタンダードとして現在も使用されているウェットラボ法である。 2つのそれぞれの生物のゲノムDNAがDDHの類似性が70%未満であることが明らかになった場合、これはそれらを異なる種と見なすための主な論点であり、逆もまた同様である。 DDHは、退屈で面倒で、エラーが発生しやすいと広く考えられている[ref.3、4]。さらに、ゲノムシーケンスとは対照的に、DDH値自体より多くの情報を返さないため、結果として、データを再利用して段階的に作業することはできない。

 DDH技術は現在、少数の専門ラボ(主に微生物サービスコレクション)でのみ確立されており、実験的偏差を起こしやすいため、その実験の統計的信頼性を決定するためにいくつかの実験を繰り返す必要がある。たとえば、微生物学における種の境界に関して、関連するクエスチョンは、DDH値が70%を大幅に下回るか上回るかである。これは、表現型の測定などの他の基準に対してDDHからの証拠をトレードオフする必要がある多相アプローチのコンテキストでは特に重要である[ref.5]。 16S rRNA配列の類似性が特定のしきい値を下回っている場合にのみ、DDH実験を新種の説明で省略できる。これは、DDH値が70%を超えることは期待できないことを示す[ref.2]。

(一段落省略)

技術的な問題と進歩を考慮すると、ウェットラボのDDH手順とDDHのデジタル推定の関係は、16S rRNA配列のDNA:rRNAクロスハイブリダイゼーション融解曲線[ref.9、10]が置き換えられた約30年前に起こったことを思い起こさせる。これは、微生物系統の大幅な進歩をサポートした[ref.11]。

 Genome Blast Distance Phylogenyアプローチ(GBDP)は、完全に(または不完全な)シーケンスされたゲノムの特定のセットから系統樹またはネットワークを推論するためのアプローチとして当初考案され[ref.12]、その後再検討および強化された[ref.8、13 -16]。基本的な原理は次のとおりである。最初のステップでは、BLAST [ref.17]などのツールを使用して2つのゲノムAとBをローカルにアラインし、スコアの高いセグメントペア(HSP;これらはゲノム間一致)のセットを生成する。 2番目のステップでは、特定の距離式を使用して、これらのHSPに含まれる情報(たとえば、同一の塩基対の総数)を単一のゲノム間距離値に変換する。系統樹は、neighbour joiningなどの標準的な手法を使用して、そのような距離行列から推測できる[ref.18]。これらの方法は、相当量のパラロガス遺伝子、大きなリピート、減少したゲノム[ref.12]、および配列内の複雑さの低い領域[ref.16]が存在する場合でも堅牢である。 GBDPはプロテオームデータにも適用でき[ref.13]、単一遺伝子にも適用できる[ref.19]。

 GBDPのさらなる使用が最近評価された。つまり、DDH値のデジタルでの同等な物を推測するためである[ref.8、16]。これらはウェットラボハイブリダイゼーションの結果をうまく模倣し、先行するゲノムシーケンスに基づく方法[ref.6]よりも経験的なDDH値のセットとの高い相関を提供し、かなり不完全なゲノム[ref.8]に対処できることが判明した。微生物学者は、http://ggdc.dsmz.de [ref.16]にある無料のWebサービスを使用してGBDPを使用して、ゲノムペアを送信し、DDHアナログおよびモデルベースのDDH推定値を受信できる。

 

 

 

GGDC Scientific Background

http://ggdc.dsmz.de/ggdc_background.php#

FAQ

https://ggdc.dsmz.de/faq.php#tabGGDC

 

使い方

https://ggdc.dsmz.de

f:id:kazumaxneo:20200728164250p:plain

 

GGDCにアクセスする。

https://ggdc.dsmz.de/ggdc.php

f:id:kazumaxneo:20200728164423p:plain


アラインメントのプログラムを選択する。標準ではBLAST+になっている。

f:id:kazumaxneo:20190913024320p:plain

 

クエリのゲノムと比較するリファレンスゲノムをそれぞれ選択する。ゲノムのFASTAをアップロードするか、Genbank accesion IDsを指定する。

クエリのゲノム

f:id:kazumaxneo:20190914014016p:plain

 

リファレンスゲノム。ローカルのファイルを複数指定する場合は、shiftキーやCtrlキーで複数同時選択してアップロードする。acceson IDを指定する場合は、1行に1生物ずつタイプしていく。

f:id:kazumaxneo:20190914014057p:plain

 

メールアドレスを指定してSubmitする。

f:id:kazumaxneo:20190914014637p:plain

 

DDHの結果はメール中に直接記載される。またCSVの添付ファイルにまとめられる。 

 

  • Formula: 1 (HSP length / total length)
  • Formula: 2 (identities / HSP length) (RECOMMENDED)
  • Formula: 3 (identities / total length)

式2はゲノムの長さに依存しないので、不完全なドラフトゲノムの使用に対してもロバスト
式2を推奨するその他の理由については、FAQエントリを参照。3つの式の間に大きな違いがある場合は、推奨される式2で判断する。

FAQより

多くの場合、DDHに関しては3つの異なる式でほぼ同一の結果が得られる。例えば、テストデータとして使用した大腸菌の2つのゲノムについて、BLAST+では、それぞれ74.80%±3.80、76.70%±2.87、77.80%±3.28の結果が得られた。しかし、他のゲノムについては、70%の境界に関しては、結果が異なる場合があり、時には異なる場合もある。これは計算の誤りによるものではなく、ゲノム進化の異なる側面を探るための3つの距離式によるものである。

ゲノム間距離からDDHを推定するためのすべてのモデルを個別に推論したところ、すべての式は非常に高い相関を示した。使用したテストデータセットはこれまでの研究よりも大規模であったため、テストデータセットを用いた場合、モデル構築の結果だけでは特定の距離式を選択することはできなかった。しかし,このことは,他の基準があれば式の間に強い違いが出ないということを意味するものではない.例えば、式2は、不完全な配列のゲノムで使用できる唯一のものである。しかし、式2を推奨する理由は他にもある。

生物学的には、すべてのゲノムが完全に配列決定されている("Finished "状態)、あるいはほぼ完全に配列決定されているにもかかわらず、式1の方が式2よりもはるかに高いDDH類似度が得られる場合には、遺伝子内容の変化は比較的少ないが、遺伝子配列に関しては比較的強く変化していることを示している。生物の種類や進化の過程での淘汰圧力によっては、同一種内の多くの系統で遺伝子内容が大きく異なることがあっても、これは無理のないシナリオではないだろう。例えば、2つの系統はプラスミドの存在だけで多かれ少なかれ異なるかもしれない(FAQの項目を参照)。これだけでも式2を好む理由になるかもしれないが、他の2つの式は貴重な追加の生物学的情報を提供する可能性があるため、結果に含まれている。

引用

Genome sequence-based species delimitation with confidence intervals and improved distance functions
Jan P Meier-Kolthoff, Alexander F Auch, Hans-Peter Klenk, Markus Göker
BMC Bioinformatic svolume 14, Article number: 60 (2013)