macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

vgのゲノム配列グラフを可視化するためのJavaScriptモジュール Sequence Tube Maps

 

レポジトリより
近年の科学の進歩により、利用可能なゲノム配列情報は膨大な量に達している。以前は、この配列情報は単一の参照配列から構成されており、比較的容易に線形に可視化することができた。今日、私たちはしばしば、特定のDNA配列の複数のvariantsを知っている。これらは、同じ種の異なる個体の配列である場合もあれば、異なる種の相同な(=祖先を共有する)配列である場合もある。個々の配列の違いは多型と呼ばれ、その大きさは、1塩基対の変異からDNAの長いストレッチを含む変異まで様々である。配列間の差異を解析し、表現型の違いに関連付けることで、解析した配列の機能に関する結論が得られる。
グラフデータ構造は、複数の関連する配列を一つのデータ構造にエンコードすることを可能にする。その意図は、配列の類似性と相違性を容易に見つけることによって、複数の配列の比較を単純化することである。ゲノム配列の変異とその関係をグラフの形で正式にコード化するためのアプローチ(およびファイルフォーマット)は数多く存在する。しかし、通常のグラフは、パスではなくノードとエッジで構成されており、複数のノードを順次結ぶ連続したパスではなく、またそのノードには前後方向もない。そのため、ゲノム配列グラフの表示に特化したソリューションが必要となる。

このモジュールの目的は、ゲノム配列グラフの視覚的表現を生成することである。可視化の目的は、すべての配列バリアントに関する情報を直感的な方法で、できるだけエレガントに表示することである。

 

ゲノム配列グラフは、ノードとパスから構成される。

ノードは特定の塩基配列を表す。ノードは特定の塩基配列を表し、その長さがグラフ表示におけるノードの幅を決定する。
パスは複数のノードを連結する。各パスは、グラフデータ構造の基礎となる配列の1つを表し、複数のノードに沿って歩く。
最初の例では、両方のパスは同じノードを接続しているので、それらのシーケンスは同一である(3つのノードは実際には1つにマージされる可能性がある)。

もし2つの配列が途中で異なっていたら、次のような画像になる。

配列が部分的に反転することもある。このような場合、2つの異なるノードを作成するのではなく、1つのノードを2方向にトラバースさせる。

(レポジトリより転載)

 

動作デモ

https://vgteam.github.io/sequenceTubeMap/

デモだが、vgが生成したデータを入力として提供することもできる。ただし、オンラインバージョンは小さいファイルサイズに制限されている。より大きなデータセットを視覚化するためにはローカルマシン(Linux)で実行する。

 

図はインタラクティブに操作可能。ホイールで拡大縮小できる。

vgのbamファイルである.gamから変換して読み込まれており、グラフ上にリードがマッピングされたのが可視化されている。バリエーションがある部位でリードが2つのパターン;GもしくはA、に分かれているのが分かる。

 

ノードの縦の長さは指示するリード数の割合によって変わる。

 

パラメータは調整できる。全体表示、ソフトクリップのON/OFF、MAPQによるカットオフなど。

図はDownloadボタンからSVG形式でダウンロードできる。

 

引用

GitHub - vgteam/sequenceTubeMap: displays multiple genomic sequences in the form of a tube map

 

関連