macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

スケーラブルなインフラ上での比較ゲノミクスサービス EDGAR3.0

 

 EDGARプラットフォームは、何千もの微生物ゲノムの事前計算されたオルソロジーデータのデータベースを提供するウェブサーバーで、比較ゲノミクスおよび系統学の分野で最も確立されたツールの一つである。EDGARは、事前に計算された遺伝子アラインメントに基づいて、パンゲノム、コアゲノム、シングルトン遺伝子などの異なる遺伝子コンテンツを迅速に特定することができる。さらに、EDGARは、ベン図、シンテニープロット、系統樹アミノ酸同一性(AAI)および平均ヌクレオチド同一性(ANI)マトリクスなどの幅広い分析と可視化を行う。ここ数年の間に、EDGARプロジェクトで解析されるゲノムの平均数は2桁増加した。この膨大な数の増加に対応するため、EDGARプラットフォームのための全く新しい技術的バックエンドインフラが設計され、EDGAR3.0として発表された。新しいEDGAR3.0プロジェクトの計算には、クラウド環境で稼働するスケーラブルなKubernetesクラスターを使用するようになった。タイムリーなデータ処理と効率的なアクセスを保証するファイルベースの高性能ストレージバックエンドを使用して、新しいストレージインフラを開発した。この新しいデータバックエンドは、メモリ効率の良いオルソログの計算を保証し、並列化により処理時間を大幅に短縮した。このような高度な技術的基盤に基づいて、POCPおよびFastANIゲノムの類似性指標、UpSet交差セットの視覚化、環状ゲノムプロットなどの新しい解析機能を実装することができた。また、EDGARの公開データベースセクションも大幅に更新され、現在では749の無料プロジェクトで24,317のゲノムにアクセスできるようになった。EDGAR 3.0は、包括的な微生物の比較遺伝子量解析のための新しいスケーラブルなインフラを提供する。ウェブサーバは http://edgar3.computational.bio からアクセスできる。

 

(中略)

結果を保存するために必要なストレージ容量や、増加するデータに対するクエリのためのメモリ要件は急速に増大している。EDGARバージョン2.0以降、事前に計算されたBLAST結果はフィルタリングされ、その後MySQLデータベースに保存されている。数百のゲノムを扱うプロジェクトでは、保存されたBLAST結果の数は容易に数億に達する。その結果、データのインポートとインデックス作成に非常に時間がかかるため、MySQLバックエンドはEDGARウェブサーバにとってますます制限的な要素となった。最後に、古典的なリレーショナルデータベースモデルに格納されているEDGARプラットフォームの基礎データへのアクセスは、大規模なプロジェクトでは処理時間とメモリ消費に関して重要なボトルネックになっていた。これらの問題は、ムーアの法則を超えるとさえ言われているゲノムデータの増加に伴い、さらに大きな問題となることが予想される(ref.6)。このような課題を克服するために、EDGARウェブサーバの運用を確実にし、将来的に科学コミュニティにEDGARサービスを提供することができる、最新のスケーラブルなバックエンドを開発した。

(中略)
データの保存とアクセス時間の問題を解決するために、プロトコルバッファを使用したファイルベースのストレージソリューションを使用している。アライメントの結果は、もはやリレーショナルデータベース管理システムに保存されるのではなく、超高速オールフラッシュストレージに保存されたファイルベースのバックエンドに保存され、最適なアクセス時間を確保する。これにより、データベースのインポートが不要になり、BLAST結果のフィルタリングが大幅に高速化されたため、EDGAR3.0プロジェクトのセットアップ時間が以前のバージョンと比べて大幅に短縮された。旧バックエンドでホストされていた最大のプロジェクトは、Streptococcusゲノムのプライベートプロジェクトで、10億のBLAST結果で構成されていたが、新バックエンドでの最大のプロジェクトは、パブリックなEscherichiaプロジェクトで、131億のBLAST結果で構成されている。

 EDGAR3.0では、この高速なストレージバックエンドを用いて、任意の数のゲノムにまたがるオルソログを、処理するゲノム数に対してO(1) の一定のメモリ使用量で計算できるようになった。新しいストレージバックエンドは、EDGARクエリのスケーラブルで高度な並列実行のために最適化されている。このバックエンドは、サーバーで利用可能なすべてのコアで計算を並列化する機能と、コンパイルされたプログラミング言語を使用しているため、オルソログを決定するための計算時間を短縮する。従来のバックエンドでは、パンゲノムの計算は、ゲノムサイズに応じて150から200ゲノムが限界で、それ以上では計算時間が長すぎてウェブサーバーが適切な時間内に終了できなくなった。新しい計算バックエンドでは、バシラス属881ゲノムの完全なパンゲノム(6960万エントリの行列)を約50分で計算することができる。

ウェブサーバーの新機能
今回は技術的なアップグレードが中心となるが、EDGAR3.0の機能を拡張する新機能もいくつかある。FastANIとPOCP(保存されたタンパク質の割合を示すマトリックス)の追加により、EDGARプラットフォームの主な応用分野であるフィロゲノミクスのための機能セットがさらに強化された。POCPは、ゲノムの進化的・表現的な距離を推定するための新たな手法を提供する。POCPの計算に必要なデータは、新しい高速EDGARバックエンドから直接抽出することができるが、fastANIの結果は、ユーザーがfastANIマトリックスに問い合わせた時点で、最大200のゲノムについてオンザフライで計算される。POCPの結果とfastANIの結果は、すでにAAIやANIで提供されているものと同等のヒートマップで表示される。

 

以前に紹介しているので、今回は新機能に限定して紹介します。


webサービス

https://edgar3.computational.bio.uni-giessen.de/cgi-bin/edgar_login.cgi?logged=1にアクセスする。ゲノムを分析する属を選ぶ。

f:id:kazumaxneo:20211018001404p:plain

上のボタンからダークモードが選べるようになった。ダークモードの方が文字が識別しやすい。

 

モードを選択してゲノムを選択すする。左クリックでゲノムを選択する。一部の解析では、比較の中心となるゲノムも選択しないとcalculateボタンはクリックできない。比較の中心となるゲノムは右クリックで選択する。

f:id:kazumaxneo:20211018003759p:plain

上の画像では、比較の中心となるゲノムは他より濃い緑色で選択されている。

 

Create POCP matrix

選択されたゲノムセットのPOCP(保存されたタンパク質の割合)マトリックスを計算する。これはQinら(https://pubmed.ncbi.nlm.nih.gov/30504855/)のアイデアに基づいている。選択できるコンティグの数は100個に制限されている。このカットオフを評価しており、将来的には増やすかもしれませんf:id:kazumaxneo:20211018003704p:plain

(より多くのゲノムのPOCPマトリックスが必要な場合は、EDGARサポートに問い合わせて下さいと書かれている)

 

Create ANI matrix (FastANI)

従来のANIbアプローチの代わりにJainらのfastANI(https://pubmed.ncbi.nlm.nih.gov/30504855/)を使用しており、かなり高速に実行できる。選択できるコンティグの数は200個までになっている。

f:id:kazumaxneo:20211018004239p:plain

(より多くのゲノムを比較したい場合は、EDGARサポートに問い合わせて下さいと書かれている)

 

感想

オルソログを計算するツールにはGET_HOMOLOGUES、Roary、OrthoFinderなどの人気の実装がいくつもあり、ユーザー手持ちのゲノムセットについて、比較解析を行う事ができます。しかし、一定以上の品質のゲノムを集めて計算をするには、1回の結果を出すだけでもかなりの時間を要します(特に準備も含めると)。EDGARが他のアプローチと異なるのは、事前計算済みのデータセットを提供している点です。事前に計算されたデータセットを使う事で、ユーザーが手持ちのゲノムを解析出来なくなるデメリットは残るものの、迅速に結果を提供することができます。比較ゲノムの計算には総じて時間がかかることを考えればこれは大きなメリットです(例を挙げるなら、roaryは非常に高速だが、ゲノムが100以上に増えると計算に数日かかったりする)。EDGAR3.0は高速化の方法を追及することで、この事前計算のメリットをさらに引き出したことになります。

 個人的には、手持ちのゲノムも使った分析や、細菌の幅広い分類群で高度に保存されたタンパク質を探すなどの目的のために属より高い階層の計算にも部分的に対応できれば嬉しいのですが、それは今後のバージョンアップに期待でしょうか(通常は種内、種間比較)。

引用

EDGAR3.0: comparative genomics and phylogenomics on a scalable infrastructure 
Marius Alfred Dieckmann, Sebastian Beyvers, Rudel Christian Nkouamedjo-Fankep, Patrick Harald Georg Hanel, Lukas Jelonek, Jochen Blom, Alexander Goesmann

Nucleic Acids Research, Volume 49, Issue W1, 2 July 2021, Pages W185–W192

 

関連