シーケンシングコストが低下するにつれて、バクテリアゲノムの配列が増加している。現在、NCBI(Benson et al、2009; Sayers et al、2009)、SEEDデータベース(Overbeek、Disz&Stevens、2004)には約15,000種類の原核生物ゲノムがあり、約75,000種類のアセンブリされていないデータがSequence Read Archiveに保存されている。 NCBIには約35,000のメタゲノムがあり、MG-RASTからは約90,000のメタゲノムが入手可能である(Meyer et al、2008)。完全なゲノムシーケンシングは、単一の原核生物種についての詳細な知識を提供するが、メタゲノムシーケンシングは、微生物環境の概要を私たちに提供する(Dinsdale et al、2008)。主要な目標の1つは、存在する種の分類学的起源を同定することである(Belda-Ferre et al、2012; Mande、Mohammed&Ghosh、2012; Carr、Shen-OrrおよびBorenstein、 2013; Silva et al、2014)。
メタゲノムに存在する種を同定するための2つの典型的なアプローチがある。最も一般的な方法は、既知の分類学的系統のデータベースに対して相同性検索を使用する事である(Altschul et al、1997; Meyer et al、2008; Segata et al、2012)。対照的に、ensembleアプローチは、タンパク質ドメイン頻度またはk-mer構成(Meinicke、Achhauer&Lingner、2011; Silva et al、2014)のような、全リードのsignatureデータを使用する。相同性に基づく方法は、原核生物ゲノムの非常に多様で変異性の性質のために、一般に塩基ではなくタンパク質レベルのアライメントを使用する。このアプローチの問題は、メタゲノムシーケンシングのリードが、タンパク質のオープンリーディングフレームと比較して比較的短い傾向があることである。タンパク質をコードする原核生物遺伝子の平均長は約750bpである(Brocchieri&Karlin、2005)。現在のシーケンシング技術は、30〜700 bp(Buermans&den Dunnen、2014)の平均長のリードを生成する。シーケンシングデータにはサンプリングの確率的性質のためにオープンリーディングフレームの断片が含まれる。得られた予測タンパク質は、部分タンパク質と非タンパク質コード領域の部分的誤翻訳の混合物である。タンパク質断片が短ければ短いほど、原核生物間の共有された相同性のため(Wommack、Bhavsar&Ravel、2008)、その断片に対するトップヒットを同定することが難しくなる。原核生物の分類学的同定に使用される一番の遺伝子は、全原核生物に普遍的に存在し、高度に保存されている16S rRNAスモールサブユニット遺伝子である(Woese&Fox、1977; Lane et al、1985)。 16Sに基づく分析の問題の1つは、ゲノム中の16S遺伝子のコピー数がゲノムあたり1〜15コピーまで異なるため、定量に用いる前にゲノムあたりのコピー数に基づいて存在量を正規化しなければならない(Angly et al、2014)。そのため、代替案として、recA、rpoB、groEL、sodA、gyrB、nifD、fusA、およびdnaJを用いることが提案されている(Holmes、Nevin&Lovley、2004;Adékambi &Drancourt、2004; Ghebremedhin et al、2008; Weng et al、2009)。
メタゲノムサンプルとは対照的に、ゲノムデータの分類は、通常はコンティグへのアセンブリ後に実行されるが、シーケンシングのために培養された生物の先験的な知識に基づいており、影響を受ける。コンティグへのリードのアセンブリにより、完全なORFが同定される。これらの完全な遺伝子を用いて、シーケンシングされた株の分類を同定することができる。 RAST(Aziz et al、2008; Overbeek et al、2013)のようなツールは、BLASTP検索に基づく累積類似性に基づいて類似生物のリストを提供する。最初の培養が純粋でない場合、ゲノム中に存在する種の同定、および実際にはアセンブリおよび下流のアノテーションが妨げられる。不完全な培養は微生物学的技術が乏しいことから生じることがあるが、環境生物の研究では、常に複数の生物を含むいくつかの分離株が見つかる。著者らは、これらの生物が密接な相互関係を形成し、それゆえそれらの共培養が継続していると考えている(M Doane&EA Dinsdale、2014、未発表データ)。
メタゲノムデータを分析するための現在の方法論に関連する制限および問題を克服し、ゲノムシーケンシングデータをプレスクリーニングするため、著者らはWebベースのツールGenomePeek(https://edwards.sdsu.edu/GenomePeekから入手可能)を開発した。 GenomePeekは、原核生物の区別に有用な高度に保存された遺伝子セットと相同なシーケンシングデータを全て見つけることによって、存在する原核生物種を迅速に同定する。これらのリードをコンティグに組み立て、完全なORFを使用して、組み立てられた遺伝子の系統発生を決める。 GenomePeekは現在、4つの原核生物遺伝子、すなわち16S、recA、rpoB、およびgroEL、および4つの真核生物遺伝子(18S、RAD51、HSP60、RPB2)を分析する。ゲノムシーケンシングデータをGenomePeekで分析する場合、培養の同一性および純度が測定され、メタゲノムシーケンシングデータが分析される場合、その環境での分類学的分布が測定される。
FAQ
http://edwards.sdsu.edu/GenomePeek/faq.php
使い方
GenomePeekにアクセスする。
http://edwards.sdsu.edu/GenomePeek/index.php
fastqをアップロードする。
Add Files => Start upload。uploadが終わったらSubmit Sequencesをクリック。
(対応拡張子: fastq, fq, fasta, fa, fna, qual, q. Files may be gzipped)
アセンブリされ、taxonomy classificationが実行される。さらに16S, recA, rpoB, and groELの定量が行われる。
1GB以上のシーケンシングデータはサブサンプリングして分析する。
引用
GenomePeek-an online tool for prokaryotic genome and metagenome analysis.
McNair K, Edwards RA
PeerJ. 2015 Jun 16;3:e1025.