微生物ゲノムアセンブリの品質と比較ゲノミクス（correspondence要約）

　私（論文のオーサー；hereafter、私）の最近の研究では、低品質の細菌ゲノム配列（ここでは「多くのコンティグを含むゲノム配列アセンブリ、最終的には明らかなミスアセンブリと未解決のプラスミド配列」と定義）を扱ってきた。主要な問題は、ゲノムのクオリティを評価する基本的な方法が利用可能であるにもかかわらず、これらのゲノム配列のクオリティが関連するデータバンクまたは関連文献に示されていないことである[ref.1,2,3]。低品質のゲノムの一部は潜在的な関心対象になる可能性があるため、これらのゲノムはあまり役に立たないと最終的に結論付けるためにかなりの時間を費やす可能性がある。私は、この時間の損失は簡単な手段で回避できると考えている。

新しい技術は常に懐疑的に受け止められている。 454シーケンステクノロジーを使用していたときは、ホモポリマーが大きな懸念であった[ref.4]。IonTorrentシステムでも同じ問題が後に観察された[ref.5、6]。
イルミナなどのテクノロジーのショートリードを使ったアセンブリは、多くの場合、多くのコンティグを持つアセンブリを生成する。 PacBio SMRTシーケンスまたは最近ではOxford NanoPore MinIONシーケンスのロングリードを使ったゲノムアセンブリは、結果として生じるコンティグの数が少ないため（多くの場合完全な細菌ゲノム）、多くの場合アセンブリで優れているが、高いエラー頻度と信頼性に関する懸念がまだある[ref.7、 8,9]。
これらの問題の多くは、アセンブリの専門家としばらくの間かけることで解決でき、アセンブリの品質が著しく向上する。

アセンブリ後に生じる多数のコンティグは、ショートリードシーケンステクノロジーを使用するときに観察された主要な問題の1つである。
植物病原菌Pseudomonas syringaeの種内分類に関する最近のpublicationには、最大5099コンティグのゲノムが含まれていた[ref.10]。これらのゲノム配列のクオリティは、 average nucleotide identities（ANI）[ref.11]やgenome-to-genome distance calculation（GGDC）[ref.12]など、ほとんどのパラメーターがアノテーションの完全性に依存してしない、分類学的分析に用いるのに適している。
ただし、個々の遺伝子配列を検索する比較ゲノムの場合、これらの断片化されたゲノムは適用できない。
ゲノムあたりの平均ゲノムサイズは約6µM [ref.10]であり、これは5000コンティグのゲノムシーケンスの平均コンティグのサイズが約1.2kbであることを示す。
細菌の平均コーディング密度が85％、平均遺伝子サイズが1 kbの場合、これはコンティグあたり最大で完全な遺伝子が1つ存在することを示すが、コンティグ境界で2つの断片化された遺伝子を見つけることがより頻繁に起こる。これは確かにそのようなアセンブリの使用を制限する。

多くの場合、多数のコンティグギャップを解決することはできないが、これはゲノムに依存している。最近、2×300塩基のペアエンドイルミナシーケンスを使用してP. syringaeの2つのゲノムをシーケンスし、多数のコンティグを取得した（それぞれ214および246コンティグ）[ref.13]。これらのゲノムでは、コンティグブレイクの多くは挿入配列（IS）エレメントの存在によって引き起こされる。
ISエレメントは通常約1.2〜1.5 kbであるため、500 µbpのインサートサイズのショットガンライブラリは、同じゲノム内の複数のコピーに存在するISエレメントの配置には適していない。
この理由から、私たちの研究グループは現在、多数のISエレメントを含む種からのゲノムアセンブリの品質を向上させるために、高いカバレッジでPacBioシーケンスを使用することを好んでている[ref.14、15]。
それでも、シーケンスの問題を解決するには、シーケンス後の手動検査が必要である。

一方、イルミナのテクノロジーでシーケンシングされたほとんどのゲノムは、いくつかの追加のアセンブリステップによってクオリティを容易に改善できることも述べておく必要がある（論文図1 link）。私たちの研究グループ内では、イルミナのアセンブリからのコンティグの数を減らすために、通常ゲノムごとに最大1週間を費やしている。
自動アセンブリの後、最初にSeqMan NGen（DNASTAR、マディソン、ウィスコンシン州）を使用して、de novoアセンブリのFastAファイルに対してリードマッピングを実行する。このプログラムには特別なワークフローがあり、コンティグの境界を超えるリードのマッピングが可能である。
これにより、2×300 bpリードを使用すると、コンティグの左右に200 bpを超えることが多くなる。 SeqMan Pro（DNASTAR）でマップされたリードを手動で確認すると、これらのリピートがコンティグの一部で平均カバレッジよりも高いカバレッジを持っているため、偽ジョイントに基づいてアセンブリエラーを発見できる。このようなコンティグは、次のステップの前にsplitされる場合がある。

2番目のステップは、SeqManで生成されたFastAファイルのすべてのコンティグのアセンブリを相互に実行することである。ここでは、重複が生成されるため、追加のシーケンス情報に基づいていくつかのコンティグが既に結合されている場合がある。
さらに、このプロセスにより、他のコンティグに含まれる可能性のある小さなコンティグの多くが削除される。有効に含まれている場合、これらがチェックされる。
同じ種のリファレンスゲノムが利用可能な場合、この配列を使用してリードのマッピングを行い、その後、SeqManでマッピングされたde novoコンティグを結合することもできる。ただし、これにより、ミスアセンブリされた領域に起因する他の問題が発生する場合がある。

その後、コンティグフォークの場合、コンティグが誤って結合される可能性があるため、重複を慎重に確認する必要がある。 SeqMan NGenを使用したリードマッピングと、それに続くSeqMan Proを使用したマッピングリードの手動分析により、この種の問題を解決できる。 ANI [ref.11]またはGGDC [ref.12]によって決定されるほどclosely relatedな完全なゲノムが利用できる場合、プログラムMAUVE [ref.16]を使用して、リファレンスゲノム[ref.17]に対するすべてのコンティグをソートできる。
BLASTN分析からのゲノム間のシンテニーを使用して、いくつかのギャップを埋めることができる。前の手順で誤って結合された可能性のある他のものは、再度分割する必要がある。すべてのギャップを解決できるわけではないため（rRNAオペロンなど）、最終的な高品質のドラフトゲノムアセンブリのFastAファイルを生成するには、このプロセスを数回繰り返す必要がある。
アノテーション付け後、コンティグから情報を引き出すことができる。コンティグは、コンティグがプラスミドを表す場合など、コンティグアセンブリの改善につながる。

上記のプロセスにより、ドラフトゲノムからプラスミド配列がclseすることがよくある[ref.18]。コンティグの合計数は通常、ゲノムあたり50コンティグ未満に減少し[ref.19,20,21]、小さなコンティグがほぼ完全に除去される。
リードマッピングと視覚的チェックを繰り返すことにより、既に全アセンブリステップで徹底的なクオリティチェックが行なわれているため（図1）、属していないコンティグを組み合わせてコンティグの数を積極的に削減しないようにしている[ref.22、23]。
生のリードは一般にデータバンクから利用できるため、submitされたゲノム配列に対してもワークフロー（図1）が可能だが[ref.24]、エフォートはかなりのものであり、成功は保証されない。

ロングリードテクノロジの問題は、コンティグの数ではなく、個々のリードシーケンスの品質である。アセンブリに十分な数のリードまたはショートリードテクノロジからの追加リードを使用することにより、アセンブリの品質を大幅に向上させることができる。
分類学的分析、低カバレッジに基づくシーケンスエラーは本質的に検出されない。残念ながら、このようなゲノムは比較研究でも同じように表示され、その品質に影響を与える[ref.25]。
最近、「Kluyvera intestini」GT-16 [ref.26]と呼ばれる細菌のMinIONシーケンシングで生成されたゲノムシーケンスを取得した。このゲノムは、最近記載されたフィトバクター属の2つの新規種のゲノムに密接にクラスター化されていた[ref.27]。 ANIを使用した簡単なテストでは、GT-16株がPhytobacter diazotrophicus種に属していることが示された（T.H.M. SmitsおよびF. Rezzonico、未発表）。
比較ゲノミクスプログラムEDGAR [ref.28、29]とフィトバクター属および関連属の他のいくつかのゲノムとのゲノム配列の分析の後、GT-16ゲノム配列を含めるとコア数が大幅に減少することに気づいた。
Prokka [ref.30]を使用した再アノテーションは状況を改善しなかった。アノテーションの要約は、多数の偽遺伝子を示した。アノテーションを調べたところ、これらの偽遺伝子はフレームシフトに起因しており、使用されたリードのシーケンスエラーに起因すると考えられた。
興味深いことに、同じ著者は以前、イルミナのリードに基づいて同じ株のドラフトゲノムを公開していた[ref.31]。ハイブリッドアセンブリアプローチでのデータの組み合わせにより、高品質のゲノムが得られる[ref.32、33]。

セクションエディターとしての私の仕事で、またこの仕事の前に、ゲノムのシーケンシングと自動アセンブリだけ行った、多くの原稿に遭遇した。また、多くの場合比較ゲノムの前に記述していた。
そのような研究に基づいた多くの原稿を特定したが、基本的なゲノム情報が不足しているため、それらの一部をrejectした。
アセンブリと品質管理に少し時間をかけると、アセンブリのミスを解決でき、コンティグの数が減り、プラスミドの同定と配列のcloseが可能になる。この少しの余分な時間は、editorとreviewersが比較ゲノム研究に使用されるゲノムの品質を評価するのに役立ち、研究コミュニティがさまざまな目的でゲノム配列をより効果的に使用するためにも役立つ。
このcorrespondenceで説明しているように、ゲノムアセンブリのクオリティに基づく問題は最小限に抑えられる。
最終的に、データバンク[ref.34、35]での高品質のゲノムアセンブリの利点は、ゲノミクスのすべての研究者にとっても有益なwin-winの状況になる。