macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

バクテリア/アーキアのゲノム距離を計算するwebツール GGDC

  

 DNA-DNAハイブリダイゼーション(DDH)は、古細菌および細菌種の描写のための分類学的ゴールドスタンダードとして現在も使用されているウェットラボ法である。 2つのそれぞれの生物のゲノムDNAがDDHの類似性が70%未満であることが明らかになった場合、これはそれらを異なる種と見なすための主な論点であり、逆もまた同様である。 DDHは、退屈で面倒で、エラーが発生しやすいと広く考えられている[ref.3、4]。さらに、ゲノムシーケンスとは対照的に、DDH値自体より多くの情報を返さないため、結果として、データを再利用して段階的に作業することはできない。

 DDH技術は現在、少数の専門ラボ(主に微生物サービスコレクション)でのみ確立されており、実験的偏差を起こしやすいため、その実験の統計的信頼性を決定するためにいくつかの実験を繰り返す必要がある。たとえば、微生物学における種の境界に関して、関連するクエスチョンは、DDH値が70%を大幅に下回るか上回るかである。これは、表現型の測定などの他の基準に対してDDHからの証拠をトレードオフする必要がある多相アプローチのコンテキストでは特に重要である[ref.5]。 16S rRNA配列の類似性が特定のしきい値を下回っている場合にのみ、DDH実験を新種の説明で省略できる。これは、DDH値が70%を超えることは期待できないことを示す[ref.2]。

(一段落省略)

技術的な問題と進歩を考慮すると、ウェットラボのDDH手順とDDHのデジタル推定の関係は、16S rRNA配列のDNA:rRNAクロスハイブリダイゼーション融解曲線[ref.9、10]が置き換えられた約30年前に起こったことを思い起こさせる。これは、微生物系統の大幅な進歩をサポートした[ref.11]。

 Genome Blast Distance Phylogenyアプローチ(GBDP)は、完全に(または不完全な)シーケンスされたゲノムの特定のセットから系統樹またはネットワークを推論するためのアプローチとして当初考案され[ref.12]、その後再検討および強化された[ref.8、13 -16]。基本的な原理は次のとおりである。最初のステップでは、BLAST [ref.17]などのツールを使用して2つのゲノムAとBをローカルにアラインし、スコアの高いセグメントペア(HSP;これらはゲノム間一致)のセットを生成する。 2番目のステップでは、特定の距離式を使用して、これらのHSPに含まれる情報(たとえば、同一の塩基対の総数)を単一のゲノム間距離値に変換する。系統樹は、neighbour joiningなどの標準的な手法を使用して、そのような距離行列から推測できる[ref.18]。これらの方法は、相当量のパラロガス遺伝子、大きなリピート、減少したゲノム[ref.12]、および配列内の複雑さの低い領域[ref.16]が存在する場合でも堅牢である。 GBDPはプロテオームデータにも適用でき[ref.13]、単一遺伝子にも適用できる[ref.19]。

 GBDPのさらなる使用が最近評価された。つまり、DDH値のデジタルでの同等な物を推測するためである[ref.8、16]。これらはウェットラボハイブリダイゼーションの結果をうまく模倣し、先行するゲノムシーケンスに基づく方法[ref.6]よりも経験的なDDH値のセットとの高い相関を提供し、かなり不完全なゲノム[ref.8]に対処できることが判明した。微生物学者は、http://ggdc.dsmz.de [ref.16]にある無料のWebサービスを使用してGBDPを使用して、ゲノムペアを送信し、DDHアナログおよびモデルベースのDDH推定値を受信できる。

(以下略)

 

GGDC Scientific Background

http://ggdc.dsmz.de/ggdc_background.php#

FAQ

https://ggdc.dsmz.de/faq.php#tabGGDC

 

使い方

http://ggdc.dsmz.de/ggdc.php#  にアクセスする。

f:id:kazumaxneo:20190913024250p:plain


アラインメントのプログラムを選択する。標準ではBLAST+になっている。

f:id:kazumaxneo:20190913024320p:plain

 

クエリのゲノムと比較するリファレンスゲノムをそれぞれ選択する。ゲノムのFASTAをアップロードするか、Genbank accesion IDsを指定する。

クエリのゲノム

f:id:kazumaxneo:20190914014016p:plain

 

リファレンスゲノム。ローカルのファイルを複数指定する場合は、shiftキーやCtrlキーで複数同時選択してアップロードする。acceson IDを指定する場合は、1行に1生物ずつタイプしていく。

f:id:kazumaxneo:20190914014057p:plain

 

メールアドレスを指定してSubmitする。

f:id:kazumaxneo:20190914014637p:plain

 

DDHの結果はメール中に直接記載される。またCSVの添付ファイルにまとめられる。 

 

引用

Genome sequence-based species delimitation with confidence intervals and improved distance functions
Jan P Meier-Kolthoff, Alexander F Auch, Hans-Peter Klenk, Markus Göker
BMC Bioinformatic svolume 14, Article number: 60 (2013)