macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

コア遺伝子有無など視覚化できるスケーラブルな原核生物間のゲノム比較ツール Chromatiblock

 2020 9/24 論文引用

 

 完全な原核生物ゲノム間の構造的変化を視覚化することは、系統の違いの遺伝的基盤を特定するために重要である。これは通常、連続したペアワイズ比較または複数の線形の結果を線形レイアウトまたは環状レイアウトで表示することで実現される。シリアルペアワイズ比較は、2つ以上のゲノム間の線形ペアワイズ比較を表示するEasyfig(Sullivan、et al。、2011)やGenoplotR(Guy、et al。、2010)などのツールを使用して作成できる。ただし、 genomic loss、gain、および構造変異は、隣接するゲノムについてのみ直接推測できる。 Mauve(Darling、et al、2004)などの複数のアラインメント可視化ツールは、シンテニック領域を線形ブロックとして表し、線を使用してゲノム全体でブロックを接続することでこの問題を解決する。数が大きいと、これは、解釈が難しいことが多い交差する線になる可能性がある。代わりに、 BLAST ring image genera- tor (BRIG) (Alikhan、et al、2011)またはCGView Comparison Tool(CCT)(Grant、et al、2012)によって作成されたものなどのリングプロットは、複数のゲノムにわたるゲノム領域の有無を一連の同心円で表示する。これらの領域は、リファレンスに従って順序付けられているため、各非リファレンスゲノムの位置に関する情報は伝達されない。代わりに、Circos(Krzywinski、et al、2009)プロットは、円の外側のedgeにゲノムを示し、相同な領域をアークとして表現するが、アークの数が各ゲノムで指数関数的に増加するため、このアプローチはスケーリングが不十分になる。多くのゲノムを環状表現すると、内輪と外輪のサイズが大きく異なり、解釈がさらに複雑になる可能性がある。
 ここでは、複数のゲノムアラインメントでシンテニックブロックを視覚化するアプリケーションであるChomatiblockを紹介する。Chomatiblockは
構造領域の線形視覚表現を作成するように設計されており、わかりやすくスケーラブルな方法でゲノム領域の有無を含め、多数の完全なゲノムのアラインメントに利用可能な視覚化オプションを追加する。
 ChromatiblockはGPLライセンスで利用可能なPythonスクリプトで、macOSGNU / LinuxMicrosoft Windowsオペレーティングシステムで実行される。 Chromatiblockを使用して、合成ブロックの配置と存在を表示するpublication品質の画像を作成する。結果は、ユーザーがゲノム全体で共有領域をズーム、パン、および強調表示できるインタラクティブなWebページとして表示することもできる。
 Chromatiblockは、multi-fasta alignment (MAF) ファイルを入力として受け取る。これは、さまざまなマルチゲノムアラインメントプログラムによって生成できる(Angiuoli and Salzberg、2011; Minkin and Medvedev、2019)。代わりに、関心のあるゲノムのセットに対してFASTA形式のファイルが提供されている場合、ChromatiblockはSibelia(Minkin、et al、2013)を実行して必要な入力を自動的に生成できる。(以下略)

 

A HTML example

https://mjsull.github.com/chromatiblock

 

 

インストール

依存

 

本体 GIthub

conda -c bioconda install Chromatiblock

Chromatiblock.py -h

$ Chromatiblock.py -h

usage: Chromatiblock 0.3.0 [-h] [-d INPUT_DIRECTORY] [-l ORDER_LIST]

                           [-f FASTA_FILES [FASTA_FILES ...]]

                           [-w WORKING_DIRECTORY] [-s SIBELIA_PATH]

                           [-sm SIBELIA_MODE] [-o OUT] [-q PPI]

                           [-m MIN_BLOCK_SIZE] [-c CATEGORISE]

                           [-gb GENES_OF_INTEREST_BLAST]

                           [-gf GENES_OF_INTEREST_FILE] [-gh GENOME_HEIGHT]

                           [-vg GAP] [-ss] [-sb] [-maf MAF_ALIGNMENT]

 

Chromatiblock.py: Large scale whole genome visualisation using colinear blocks.

 

Version: 0.3.0

License: GPLv3

 

USAGE: python Chromatiblock.py -f genome1.fasta genome2.fasta .... genomeN.fasta -o image.svg 

 

        or

     

       python Chromatiblock.py -d /path/to/fasta_directory/ -o image.svg

 

optional arguments:

  -h, --help            show this help message and exit

  -d INPUT_DIRECTORY, --input_directory INPUT_DIRECTORY

                        Directory of fasta files to use as input.

  -l ORDER_LIST, --order_list ORDER_LIST

                        List of fasta files in desired order.

  -f FASTA_FILES [FASTA_FILES ...], --fasta_files FASTA_FILES [FASTA_FILES ...]

                        List of fasta/genbank files to use as input

  -w WORKING_DIRECTORY, --working_directory WORKING_DIRECTORY

                        Folder to write intermediate files.

  -s SIBELIA_PATH, --sibelia_path SIBELIA_PATH

                        Specify path to sibelia (does not need to be set if

                        Sibelia binary is in path).

  -sm SIBELIA_MODE, --sibelia_mode SIBELIA_MODE

                        mode for running sibelia <loose|fine|far>

  -o OUT, --out OUT     Location to write output (options

                        *.svg/*.html/*.png/*.pdf) will default to svg (and add

                        extension).

  -q PPI, --ppi PPI     pixels per inch (only used for png, figure width is 8

                        inches)

  -m MIN_BLOCK_SIZE, --min_block_size MIN_BLOCK_SIZE

                        Minimum size of syntenic block.

  -c CATEGORISE, --categorise CATEGORISE

                        color blocks by category

  -gb GENES_OF_INTEREST_BLAST, --genes_of_interest_blast GENES_OF_INTEREST_BLAST

                        mark genes of interest using BLASTx

  -gf GENES_OF_INTEREST_FILE, --genes_of_interest_file GENES_OF_INTEREST_FILE

                        mark genes of interest using a file

  -gh GENOME_HEIGHT, --genome_height GENOME_HEIGHT

                        Height of genome blocks

  -vg GAP, --gap GAP    gap between genomes

  -ss, --skip_sibelia   Use sibelia output already in working directory

  -sb, --skip_blast     use existing BLASTx file for annotation

  -maf MAF_ALIGNMENT, --maf_alignment MAF_ALIGNMENT

                        use a maf file for alignment.

 

Thanks for using Chromatiblock

 

 

テストラン

 

wget https://github.com/mjsull/chromatiblock/releases/download/v0.3.0/chromatiblock_example.zip

Chromatiblock.py -d chromatiblock_example -w cb_working_dir -o example.html -gb chromatiblock_example/toxins.faa -c chromatiblock_example/categories.tsv
  • -d     Directory of fasta or genbank files to use as input (will ignore files without .fasta, .fa, .fna, .gb or .gbk suffixes).
  • -w    Folder to write intermediate files.
  • -o     Location to write output (options *.svg/*.html/*.png/*.pdf) will default to svg (and add extension). (n.b. PDF does not work particularly well all the time)
  • -gb   Uses BLASTx to find genes in chromosome and then marks them in panel a and b with a triangle
  • -c     color blocks by category

 

 

 

example.html出力。上と下の2つで表現される。

f:id:kazumaxneo:20191012135100p:plain

Safariブラウザが良くないのか、凡例が非常に小さい(*1)。

 

上半分

すべてのゲノムに存在するコアco-linearブロックが垂直にアラインされ、実線の長方形で表示される。 ゲノムのサブセットのみに存在する非コア領域は、それぞれ固有のストライプの塗りつぶしパターンで表示される。

下半分

非コアco-linearブロックの有無を示している。 ブロックがないことは、それぞれのゲノムにないことを示している。

 

 

先頭部分を拡大した。

 

f:id:kazumaxneo:20191012135338p:plain

凡例部分を拡大

f:id:kazumaxneo:20191012135342p:plain

f:id:kazumaxneo:20191012140731p:plain

図の領域によって色が変わる。これによって逆位などの構造変化が分かりやすくなっている。

 

作業ディレクトリにはSiberiaの出力も残る。

f:id:kazumaxneo:20191012142229p:plain

引用

Chromatiblock: scalable whole-genome visual-ization of structural differences in prokaryotes

Mitchell J Sullivan,  ProfileHarm van Bakel

bioRxiv preprint first posted online Oct. 10, 2019

 

2020 9/24 追記

Chromatiblock: scalable whole-genome visualization of structural differences in prokaryotes

Mitchell J Sullivan,  ProfileHarm van Bakel

Journal of Open Source Software, Published 23 September 2020

 

関連


 

*1

1920 x 1200ディスプレイで表示