次世代シークエンシング(NGS)技術の進歩により、前例のない量の異なる形式のデータが生成されている。大規模なNGSデータの解釈は複雑で困難である。可視化はNGSデータを解釈する手段の1つであり、データ分析において重要な役割を果たしている。円グラフは、大規模なデータとそれらの相互関係を1つのフレームで表示するのに非常に便利である。円形ビューでデータを視覚化するためのさまざまなWebベースのツールがある(論文 表1)。 Circos [論文より ref.1]に基づくOnline Circos(http://mkweb.bcgsc.ca/tableviewer/)は、円形ビューでデータを視覚化するためのWebツールだが、Circosの使用方法に関する詳細な知識が必要となる。 CiVi [ref.2](紹介)のようなツールは特定のゲノミクスデータのみを扱うことができ、微生物ゲノムからのデータをプロットすることに限定されている。もう1つのWebtoolであるCliCo FS [ref.3]はgene bankファイルのみをサポートしている。他の種類のファイルの場合、自動化されていないため、アップロード前にファイルをフォーマットする必要がある。さらに、ClicO FSはデータ駆動型ではなく視覚化駆動型である。さらに、プロットを生成する前に複数のクリックが必要である(紹介)。 J-Circos [ref.4]などのデスクトップベースのアプリケーションは、実行する前にインストールする必要がある。さらに、J-Circosは、すべてのタイプのゲノミクスおよびトランスクリプトミクスのデータフォーマットをサポートしておらず、モデル生物の限られたセットだけをサポートしている。したがって、これらのツールのいずれもCircroのインストールと使用に関する知識がまったくないか、または最小限の知識を持つ生物学者にとって、循環型の視覚化の形でデータを便利に解釈するための、自動化されたガイド付きの様々なゲノミクスとトランスクリプトミックのraw出力ファイルをサポートしていない。
Circos [ref.1]を用いて任意のプロットを生成するためには、リファレンスゲノムまたはコンティグの長さ、サイズ、色および各染色体またはコンティグの適切な標識の染色体長さなどの基本情報を定義するカリオタイプ(karyotype)ファイル(karyotype wiki)が必要である。必要な別のファイルは、その内容に基づいてデータを視覚化する方法に関する情報を含むconfiguration(config)ファイルとなる。ユーザーがデータ、コンテンツ、さまざまな視覚化オプションを徹底的に理解する必要があるため、設定ファイルを作成するのは複雑になる。われわれはCircosのラッパーであるCGDVを開発し、大規模なゲノミクスと転写オミクスデータをシームレスに環状可視化する自動化されたガイド付きのツールを提供する。 CGDVは、様々なモデル生物のために予めパッケージ化されたカリオタイプファイルを提供するだけでなく、ユーザーによって提供されるゲノミクスおよびトランスクリプトミックスデータに基づいて設定ファイルを生成する。 CGDVは、SVGおよびPNG形式のデータ特有の環状ビジュアルを生成するために、ゲノミクスおよびトランスクリプトミックスデータの大部分の標準の生の出力ファイルを入力として取り込む(論文 図1)。
CGDVはApache Webサーバー上で動作する。 CGDVのウェブインタフェースは、ユーザ電子メールID(オプションでゲストユーザとしても実行できる)、モデル生物、円形ダイアグラムを作成したいデータ型などの他のパラメータと共に入力ファイルを必要とする。 入力ファイルから関連情報を抽出し、構成ファイルとデータファイルを作成する。 標準ゲノムのカリオタイプ情報はSQLiteデータベースに保存されている。 モデル生物の選択ごとに、特定のカリオタイプの詳細がデータベースから取り出される。 CGDVは、設定ファイル、データファイル、カリオタイプファイルを使用して、Circos [ref.1]をバックグラウンドで実行し、与えられた入力ファイルから環状の図を作成する。 CGDVは、SVGおよびPNG形式で画像を生成する。 ユーザーが電子メールIDを入力すると、出力は送信日から15日間アーカイブされ、その後に削除される。
ラン
https://cgdv-upload.persistent.co.in/cgdv/
以下のゲノムのkaryotypeに対応している。
データトラックとして、Exampleの以下のようなデータフォーマットに対応している。
ゲストアカウントでテストデータを何度かアップロードしてみたが、いずれもエラーになる。そもそも動作しているのか不安になってアーカイブを確認してみたが、いくつかのデータはジョブが成功しており、ダウンロードすると可視化できていた。しかしデータトラックの描画までできているデータは見つからなかった(15日しか保存されないので、たまたま初期テストの結果しかなかったのかもしれない)。
改善したら追記します。
引用
CGDV: a webtool for circular visualization of genomics and transcriptomics data
Jha V, Singh G, Kumar S, Sonawane A, Jere A, Anamika K
BMC Genomics. 2017 Oct 24;18(1):823.