macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

スモールゲノムのシンテニーブロックを探して可視化する SiberiaとC-Sibelia

2019 6/9 bioconda インストール追記

 

 同じ微生物種内の株を比較することは、病原性の原因となる遺伝子およびゲノム領域の同定、ならびに感染症の診断および治療に有効であることが証明されている。本稿では、Sibeliaという、反復de Bruijnグラフを使用して複数のclosely relatedな微生物ゲノムのシンテニーブロックを見つけるためのツールを提示する。他のほとんどのツールとは異なり、Sibeliaはゲノム内で繰り返されるシンテニーブロックや複数のゲノムで共有されるブロックを見つけることができる。それは、それぞれが異なる粒度レベルを表す複数の層を持つ階層構造内のシンテニーブロックを表す。 Sibeliaは、多数の微生物ゲノムでも効率的に動作するように設計されている。標準デスクトップでは、31分以内に31のS. aureusゲノムからシンテニーブロックを見つけ、59個のE. coliゲノムには107分以内にシンテニーブロックを見つける。 SibeliaソフトウェアはGNU GPL v2ライセンスの下で配布されており、https://github.com/bioinf/Sibeliaから入手できる。

 

HP

http://bioinf.spbau.ru/sibelia

webでも利用できると書かれていますが、2019/02現在は該当URLにアクセスできなくなっています。

 

インストール

ubuntu14.04でテストした。

ビルド依存

  • CMake
  • GCC C++ compiler (version 4.6.0+ works fine)

本体 Github

git clone https://github.com/bioinf/Sibelia.git
cd Sibelia/build
cmake ../src
make
sudo make install

#bioconda(link)
conda install -c bioconda -y sibelia

> ./Sibelia -h

# ./Sibelia -h

 

USAGE: 

 

   Sibelia  {-s <loose|fine|far>|-k <file name>} [-o <dir name>]

            [--noblocks] [-r] [-a] [-m <integer>] [-q] [-g] [-v] [-t <dir

            name>] [--lastk <integer > 1>] [--allstages] [--gff]

            [--nopostprocess] [--correctboundaries] [-i <integer > 0>] [--]

            [--version] [-h] <fasta files with genomes> ...

 

 

Where: 

 

   -s <loose|fine|far>,  --parameters <loose|fine|far>

     (OR required)  Parameters set, used for the simplification. Option

     "loose" produces fewer blocks, but they are larger ("fine" is

     opposite).

         -- OR --

   -k <file name>,  --stagefile <file name>

     (OR required)  File that contains manually chosen simplifications

     parameters. See USAGE file for more information.

 

 

   -o <dir name>,  --outdir <dir name>

     Directory where output files are written

 

   --noblocks

     Do not compute synteny blocks

 

   -r,  --inram

     Perform all computations in RAM, don't create temp files.

 

   -a,  --sharedonly

     Output only blocks that occur exactly once in each input sequence.

 

   -m <integer>,  --minblocksize <integer>

     Minimum size of a synteny block, default value = 5000 BP.

 

   -q,  --sequencesfile

     Output sequences of synteny blocks (FASTA format).

 

   -g,  --graphfile

     Output resulting condensed de Bruijn graph (in dot format).

 

   -v,  --visualize

     Draw circos diagram with blocks at different stages.

 

   -t <dir name>,  --tempdir <dir name>

     Directory where temporary files are stored.

 

   --lastk <integer > 1>

     Value of K used for the synteny blocks inferring.

 

   --allstages

     Output coordinates of synteny blocks from all stages

 

   --gff

     Use GFF format for reporting blocks coordinates

 

   --nopostprocess

     Do not perform postprocessing (stripe gluing).

 

   --correctboundaries

     Correct boundaries of unique synteny blocks.

 

   -i <integer > 0>,  --maxiterations <integer > 0>

     Maximum number of iterations during a stage of simplification, default

     = 4.

 

   --,  --ignore_rest

     Ignores the rest of the labeled arguments following this flag.

 

   --version

     Displays version information and exits.

 

   -h,  --help

     Displays usage information and exits.

 

   <fasta files with genomes>  (accepted multiple times)

     (required)  FASTA file(s) with nucleotide sequences.

 

 

   Program for finding syteny blocks in closely related genomes

 

> C-Sibelia.py  -h

# C-Sibelia.py  -h

usage: C-Sibelia.py [-h] [-s PARAMETERS] [-m MINBLOCKSIZE] [-p PROCESSCOUNT]

                    [-i MAXITERATIONS] [--maf MAF] [-v VARIANT] [-u UNMAPPED]

                    [--debug] [-t TEMPDIR | -o OUTDIR]

                    reference assembly

 

A tool for comparing two microbial genomes.

 

positional arguments:

  reference             A multi-FASTA file with the reference genome

  assembly              A multi-FASTA file with the assembly genome

 

optional arguments:

  -h, --help            show this help message and exit

  -s PARAMETERS, --parameters PARAMETERS

                        Parameters set, used for the simplification. Option

                        "loose" produces fewer blocks, but they are larger

                        ("fine" is opposite). (default: fine)

  -m MINBLOCKSIZE, --minblocksize MINBLOCKSIZE

                        Minimum size of a synteny block (default: 500)

  -p PROCESSCOUNT, --processcount PROCESSCOUNT

                        Number of running processes (default: 1)

  -i MAXITERATIONS, --maxiterations MAXITERATIONS

                        Maximum number of iterations during a stage of

                        simplification (default: 4)

  --maf MAF             Output file for storing alignments in MAF format

                        (default: None)

  -v VARIANT, --variant VARIANT

                        Output file with detected variants (default:

                        variant.vcf)

  -u UNMAPPED, --unmapped UNMAPPED

                        Output file for storing unmapped insertions in text

                        format (default: None)

  --debug               Generate output in text files (default: False)

  -t TEMPDIR, --tempdir TEMPDIR

                        Directory for temporary files (default: None)

  -o OUTDIR, --outdir OUTDIR

                        Directory for synteny block output files (default:

                        None)

 

 

テストラン1

Helicobacter_pyloriのゲノムを調べ、ゲノム内で互いに相同性がある領域を検出。標準設定では5000bp以上に渡って似た領域を検出する(遺伝子クラスターなどが引っかかる)。

cd examples/Sibelia/Helicobacter_pylori/
Sibelia -v -s loose -m 5000 Helicobacter_pylori.fasta
  • -v    Draw circos diagram with blocks at different stages
  • -s  <loose fine| far>    Parameters set, used for the simplification. Option "loose" produces fewer blocks, but they are larger ("fine" is opposite)
  • -m   Minimum size of a synteny block, default value = 5000 BP

出力

By default, Sibelia filters out synteny blocks shorter than 5 000 BP. You can change this behaviour, see section "Minimum block size".

f:id:kazumaxneo:20190223184312j:plain

-vをつけると、circosを使って可視化もされる。

> d3_blocks_diagram.html

f:id:kazumaxneo:20190223184359j:plain

 

 

 

テストラン2

Staphylococcus_aureusのゲノムを調べる(basic usage)。out_dirディレクトリを作成し、そこに出力する。

cd examples/Sibelia/Staphylococcus_aureus/
Sibelia -s loose -o out_dir Staphylococcus.fasta

f:id:kazumaxneo:20190223184719j:plain

 

 

テストラン3

2つのゲノムを比較してシンテニーブロック領域をVCF(v4.1)でコール

cd examples/C-Sibelia/Staphylococcus_aureus/
C-Sibelia.py -o out_dir NCTC8325.fasta RN4220.fasta

VCF出力

f:id:kazumaxneo:20190223185232j:plain

f:id:kazumaxneo:20190223190353j:plain


 

引用

Sibelia: A Scalable and Comprehensive Synteny Block Generation Tool for Closely Related Microbial Genomes

Ilya Minkin, Anand Patel, Mikhail Kolmogorov, Nikolay Vyahhi, Son Pham

International Workshop on Algorithms in Bioinformatics
WABI 2013: Algorithms in Bioinformatics pp 215-229


C-Sibelia: an easy-to-use and highly accurate tool for bacterial genome comparison
Minkin I, Pham H, Starostina E, Vyahhi N, Pham S

F1000Res. 2013 Nov 25;2:258

 

より大規模なゲノム比較を行えるSibeliaZも発表されています。

https://www.biorxiv.org/content/10.1101/548123v1

追記

 

関連