macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

複数ゲノムにまたがるシンテニー関係を可視化する使いやすいツール NGenomeSyn

 

 大規模な比較ゲノム研究は、種の進化や多様性に関する重要な知見を提供してきたが、同時に可視化という大きな課題にもつながっている。膨大なゲノムデータに隠された重要な情報や、複数のゲノム間の関係を素早くキャッチし、提示するには、効率的な可視化ツールが必要である。しかし、現在の可視化ツールは、レイアウトの柔軟性に欠け、高度な計算能力を必要とする。そこで、ゲノム全体あるいは局所領域とゲノム特徴(例えば、リピート、構造変異、遺伝子)のシンテニー関係を、複数のゲノムを横断して、高いカスタマイズ性で出版可能な形で可視化するための、使いやすく柔軟なレイアウトツールNGenomeSyn [multiple (N) Genome Synteny]を開発した。NGenomeSynは、ゲノムの移動、拡大縮小、回転などのオプションを調整するだけで、大量のデータをリッチなレイアウトで簡単に可視化することができる。さらに、NGenomeSynは同様の入力フォーマットを持つ非ゲノムデータの関係性の可視化にも応用できる。
NGenomeSynはGitHub (https://github.com/hewm2008/NGenomeSyn)とZenodo (https://doi.org/10.5281/zenodo.7645148)で自由に利用できる。

 

このツールの利点(レポジトリより)

  • 数十のカスタマイズ可能なゲノム(>=2)
  • 柔軟でカスタマイズ可能なレイアウト
  • 各ゲノムの順番、色、その他の設定のカスタマイズ性の高さ
  • 各ゲノムの移動、回転、拡大縮小などの設定が可能で、三角形、四角形、五角形などの特定のレイアウトを生成可能
  • リンク情報の色、透明度などの高いカスタマイズ性

 

インストール

ubuntu18でテストした。

  • linux/MaxOS
  • Perl with the SVG.pm (SVG.mライブラリへのパスが見つからない時はビルトインのSVG.pmが使用される)

git clone https://github.com/hewm2008/NGenomeSyn.git
cd NGenomeSyn
chmod -R 755 bin/*
./bin/NGenomeSyn -h
> ./bin/NGenomeSyn -h

aWarining: SVG module in Perl is missing, trying to loading the built-in [SVG.pm]...

Loading SVG module done

 

 Version:1.41         hewm2008@gmail.com

 Usage: NGenomeSyn/bin/NGenomeSyn  -InConfi in.cofi -OutPut OUT

 Options

 -InConf       <s> : InPut Configuration File

 -OutPut       <s> : OutPut svg file resultl

 -help             : Show more help with *Manual.pdf

 -NoPng            : No OutPut the  png format file

  See More help and example on the[*Manual.pdf]

(* perlSVG.pmライブラリが見つからない場合、built-inのライブラリを使用する)
 
 
テストラン
NGenomeSynの機能を学ぶために6つのテストデータが用意されている。
  • example1 最も簡単な2ゲノムのデータ準備と可視化を含む統合パイプライン
  • example2 3ゲノム以上の水平レイアウト、ゲノムレイアウト調整、特殊領域ハイライト
  • example3 リンク設定、5種類のリンクスタイル、特定の形状(三角形)のゲノムレイアウト調整
  • example4 局所遺伝子構造(CDS mRNA)コリニアリティのZoomRegion機能
  • example5  3つ以上のゲノムを水平にレイアウトするための包括的な設定(>3)
  • example6  生物学的問題を解決するために、一部の品種における遺伝子欠失を迅速に特定(パンゲノム頻度解析)

 

example1を試してみる。ランするにはconfigファイルと出力のprefixを指定する。
NGenomeSyn/Example/example1/
../../bin/NGenomeSyn -InConf in1.conf -OutPut OUT

2つの酵母ゲノムの遺伝子座ファイルとリンクファイルを使って、コンティグ間のシンテニーがプロットされる。
 
指定しているexample1のconfファイル

パラメーターの他、ゲノムの遺伝子座ファイル、シンテニーをプロットするためのlinkファイルを指定している。
 
ゲノムの遺伝子座ファイルの例。コンティグ名、START、ENDが記載されている。
R64.len

ゲノム間のlinkファイルの例。フォーマットは
chrA        StartA    EndA  chrB        StartB  EndB 

これは事前に計算しておく必要がある。
 
コメント
レポジトリにexampleの出力が掲載されてますが、複雑になりがちな複数ゲノム間のシンテニープロットをできる限り理解しやすくするための視覚化の工夫ができるように設計されています。ゲノムだけでなく、リアレンジメントの前後の可視化などの例もあり、応用もしやすくなっています。興味がある方は使用を検討してみて下さい。依存問題が発生しにくいように開発されており、導入はスムーズにできると思います。

引用

NGenomeSyn: an easy-to-use and flexible tool for publication-ready visualization of syntenic relationships across multiple genomes 

Weiming He,  Jian Yang,  Yi Jing,  Lian Xu,  Kang Yu,  Xiaodong Fang

Bioinformatics, Volume 39, Issue 3, March 2023