ゲノミクス研究において、適切なゲノムアセンブリを選択することは、ダウンストリーム解析の鍵となる。しかし、多くのゲノムアセンブリツールが存在し、その実行パラメータは非常に多様であるため、このタスクは困難である。また、既存のオンライン評価ツールは、特定の分類群に限定されていたり、アセンブリの品質について一方的な見解しか提供しなかったりする。本著者らは、最先端のQUASTツールに基づくゲノムアセンブリの多面的な品質評価と比較のためのWebQUASTを発表する。このサーバーは、https://www.ccb.uni-saarland.de/quast/ で自由に利用できる。WebQUASTは、無制限の数のゲノムアセンブリを扱うことができ、ユーザーが提供した、またはあらかじめロードされたリファレンスゲノムに対して、または完全にリファレンスフリーの方法で評価することができる。未知の生物種、モデル生物、その近縁種のアセンブリという3つの一般的な評価シナリオで、WebQUASTの主要な機能を実証する。
https://www.ccb.uni-saarland.de/quast/ にアクセスする。
QUASTはFASTAフォーマット(.fasta/.faファイル)のアセンブリを想定している(gzipファイルにも対応)。アップロードするには、"Select files "ボタンを使ってファイルを選択するか、"drop files here "フィールドにファイルをドラッグ&ドロップする。
BUSCOチェックボックスが選択された場合、アセンブリは対応するBUSCOデータベースからシングルコピーのオルソログをスクリーニングされる。遺伝子検索が要求された場合、アセンブリはGlimmerHMM遺伝子予測ソフトウェアで処理される。さらに最小コンティグ長カットオフや(上では500-bp)、真核生物か原核生物かを設定する。QUASTは、採用したすべてのモジュールの出力を組み合わせて、数値品質メトリクスの計算、評価プロットおよびIcarusビューアーの作成をし、最終的に単一の評価レポートを出力する(論文より)。
さらにオプションでリファレンスゲノムを選択できる。リファレンスゲノムは用意されているゲノムから選択するか、ユーザーが準備したFASTAファイルをアップロードする。
リファレンスゲノムを使用する場合、アセンブリはminimap2を用いてリファレンスゲノムにアライメントされる。
1、リファレンスなしのレポート例(View sample report without reference)
QUASTはN50、NG50、NA50、NGA50、ミスアセンブル、様々な指標を計算することでゲノムアセンブリを評価する。
BUSCOとGlimmerHMMが選択されていた場合、これらの結果も品質評価の表中に表示される。
累積長
2、リファレンスありのレポート例(View sample report with E. coli reference)
リファレンスなしの時と違って、Alignment-based statistics、Misassemblies、Unalignedなどのより直接的なアセンブリ品質を評価する指標が追加されている。
結果は画面の右上からダウンロードすることができます。論文ではケースとして、1)リファレンスがないアセンブリの評価、2)リファレンスがあるアセンブリの評価、そして3)近縁種のリファレンスのみ利用できる時の評価について説明されています。3のケースでは、ミスアセンブルコンティグやアンアラインメントのコンティグ長などのメトリクスは悪化するものの、それでも利用可能なアセンブリ中から最適なアセンブリを決定するため、リファレンスありの評価は有用であると説明されています。
引用
WebQUAST: online evaluation of genome assemblies
Alla Mikheenko, Vladislav Saveliev, Pascal Hirsch, Alexey Gurevich
Nucleic Acids Research, Published: 17 May 2023
関連