アセンブリ配列の16S rRNA相同性からシーケンシングデータの汚染を素早く見積もる ContEst16S

　近年、次世代シークエンシング（NGS）と呼ばれる新しいDNAシークエンシング技術の開発により、ゲノムシークエンシングのコストと時間が劇的に減少した。現在、publicデータベースの原核生物ゲノム配列数は約7万に達している（論文執筆時点）。大規模ゲノムデータの使用は、微生物界に関する我々の知識と理解を大いに促進することが示唆されている[ref.1、2]。また、臨床微生物学への応用は、感染症のより良い診断への道を開く[ref.3]。

　NGSの使用が微生物学においてより日常的になるにつれて、汚染を含む配列データの品質保証に関する懸念が高まっている[ref.4–7]。 DNAシーケンシングデータ中の汚染は、生物学的起源（細胞）または試薬もしくは機器中に存在するDNAのいずれかから生じ得る。 NGSは従来のサンガー法よりもはるかに多くの生データ（> 10倍）を生成するため、汚染の可能性が高くなる。汚染は誤った診断につながる可能性があるため、この問題は臨床検査室では特に重要である。そのようなケースを品質管理プロセスとして検出する方法の開発は、日常的な微生物ゲノミクス研究所において最も重要である。

　ドラフトゲノムアセンブリ中の汚染を検出するためのいくつかのアルゴリズムおよびソフトウェアツールが利用可能である。 DeconSeq [ref.8]は、ゲノムまたはメタゲノムアセンブリ中のヒトDNAの検出に特化した、潜在的な汚染物質の事前構築済みデータベースを必要とする。 ProDeGe [ref.9]およびCheckM [ref.10]は、バクテリアおよび古細菌のドメインにわたって高度に保存されているシングルコピータンパク質コード遺伝子を使用する。これらの方法は、publicデータベースのドラフトゲノムアセンブリにおける可能性のある汚染を検出するのに有用である。しかしながら、原則として、それらは汚染を遺伝子移入と区別することができず、それは多くの細菌種においてしばしば起こる[ref.11]。シングルコピータンパク質をコードする遺伝子とは対照的に、rRNA遺伝子は複数のコピーで存在し、水平遺伝子伝播現象を起こしにくいことが知られている[ref.12]。ここで本著者らはContEst16Sと命名した16S rRNA遺伝子配列を用いて原核生物ゲノムアセンブリからの可能性のある生物学的汚染を検出するための新規アルゴリズムを提案する。ここで開発された方法は、publicデータベース内の潜在的に汚染されたゲノムアセンブリを首尾よく同定し、タンパク質をコードする遺伝子に基づく既存のバイオインフォマティクスツールを補完するのに有用であることが証明された。

使い方

ContEst16S | Ezbiocloud.net にアクセスする。

Browseボタンから調べたい配列（アセンブルして得たcontig配列）をアップロードする。

f:id:kazumaxneo:20190709004849p:plain

バクテリアかアーキアを選ぶ。

f:id:kazumaxneo:20190709010556p:plain

Run ContEst16Sボタンを押して実行する。

数分で結果が得られる。

コンタミしていることが分かっているデータを使うと、汚染と判定された。

f:id:kazumaxneo:20190709005121p:plain

検出された16S rRNAのAll versus Allペアワイズアラインメント結果。

f:id:kazumaxneo:20190709005130p:plain

taxonomic assignment

f:id:kazumaxneo:20190709010804p:plain

分子系統樹

f:id:kazumaxneo:20190709005148p:plain

引用

ContEst16S: an algorithm that identifies contaminated prokaryotic genomes using 16S RNA gene sequences
Imchang Lee, Mauricio Chalita, Sung-Min Ha, Seong-In Na, Seok-Hwan Yoon, Jongsik Chun

Int J Syst Evol Microbiol. 2017 Jun;67(6):2053-2057.