2019 6/9 bioconda インストール追記
同じ微生物種内の株を比較することは、病原性の原因となる遺伝子およびゲノム領域の同定、ならびに感染症の診断および治療に有効であることが証明されている。本稿では、Sibeliaという、反復de Bruijnグラフを使用して複数のclosely relatedな微生物ゲノムのシンテニーブロックを見つけるためのツールを提示する。他のほとんどのツールとは異なり、Sibeliaはゲノム内で繰り返されるシンテニーブロックや複数のゲノムで共有されるブロックを見つけることができる。それは、それぞれが異なる粒度レベルを表す複数の層を持つ階層構造内のシンテニーブロックを表す。 Sibeliaは、多数の微生物ゲノムでも効率的に動作するように設計されている。標準デスクトップでは、31分以内に31のS. aureusゲノムからシンテニーブロックを見つけ、59個のE. coliゲノムには107分以内にシンテニーブロックを見つける。 SibeliaソフトウェアはGNU GPL v2ライセンスの下で配布されており、https://github.com/bioinf/Sibeliaから入手できる。
HP
http://bioinf.spbau.ru/sibelia
webでも利用できると書かれていますが、2019/02現在は該当URLにアクセスできなくなっています。
インストール
ubuntu14.04でテストした。
ビルド依存
本体 Github
git clone https://github.com/bioinf/Sibelia.git
cd Sibelia/build
cmake ../src
make
sudo make install
#bioconda(link)
conda install -c bioconda -y sibelia
> ./Sibelia -h
# ./Sibelia -h
USAGE:
Sibelia {-s <loose|fine|far>|-k <file name>} [-o <dir name>]
[--noblocks] [-r] [-a] [-m <integer>] [-q] [-g] [-v] [-t <dir
name>] [--lastk <integer > 1>] [--allstages] [--gff]
[--nopostprocess] [--correctboundaries] [-i <integer > 0>] [--]
[--version] [-h] <fasta files with genomes> ...
Where:
-s <loose|fine|far>, --parameters <loose|fine|far>
(OR required) Parameters set, used for the simplification. Option
"loose" produces fewer blocks, but they are larger ("fine" is
opposite).
-- OR --
-k <file name>, --stagefile <file name>
(OR required) File that contains manually chosen simplifications
parameters. See USAGE file for more information.
-o <dir name>, --outdir <dir name>
Directory where output files are written
--noblocks
Do not compute synteny blocks
-r, --inram
Perform all computations in RAM, don't create temp files.
-a, --sharedonly
Output only blocks that occur exactly once in each input sequence.
-m <integer>, --minblocksize <integer>
Minimum size of a synteny block, default value = 5000 BP.
-q, --sequencesfile
Output sequences of synteny blocks (FASTA format).
-g, --graphfile
Output resulting condensed de Bruijn graph (in dot format).
-v, --visualize
Draw circos diagram with blocks at different stages.
-t <dir name>, --tempdir <dir name>
Directory where temporary files are stored.
--lastk <integer > 1>
Value of K used for the synteny blocks inferring.
--allstages
Output coordinates of synteny blocks from all stages
--gff
Use GFF format for reporting blocks coordinates
--nopostprocess
Do not perform postprocessing (stripe gluing).
--correctboundaries
Correct boundaries of unique synteny blocks.
-i <integer > 0>, --maxiterations <integer > 0>
Maximum number of iterations during a stage of simplification, default
= 4.
--, --ignore_rest
Ignores the rest of the labeled arguments following this flag.
--version
Displays version information and exits.
-h, --help
Displays usage information and exits.
<fasta files with genomes> (accepted multiple times)
(required) FASTA file(s) with nucleotide sequences.
Program for finding syteny blocks in closely related genomes
> C-Sibelia.py -h
# C-Sibelia.py -h
usage: C-Sibelia.py [-h] [-s PARAMETERS] [-m MINBLOCKSIZE] [-p PROCESSCOUNT]
[-i MAXITERATIONS] [--maf MAF] [-v VARIANT] [-u UNMAPPED]
[--debug] [-t TEMPDIR | -o OUTDIR]
reference assembly
A tool for comparing two microbial genomes.
positional arguments:
reference A multi-FASTA file with the reference genome
assembly A multi-FASTA file with the assembly genome
optional arguments:
-h, --help show this help message and exit
-s PARAMETERS, --parameters PARAMETERS
Parameters set, used for the simplification. Option
"loose" produces fewer blocks, but they are larger
("fine" is opposite). (default: fine)
-m MINBLOCKSIZE, --minblocksize MINBLOCKSIZE
Minimum size of a synteny block (default: 500)
-p PROCESSCOUNT, --processcount PROCESSCOUNT
Number of running processes (default: 1)
-i MAXITERATIONS, --maxiterations MAXITERATIONS
Maximum number of iterations during a stage of
simplification (default: 4)
--maf MAF Output file for storing alignments in MAF format
(default: None)
-v VARIANT, --variant VARIANT
Output file with detected variants (default:
variant.vcf)
-u UNMAPPED, --unmapped UNMAPPED
Output file for storing unmapped insertions in text
format (default: None)
--debug Generate output in text files (default: False)
-t TEMPDIR, --tempdir TEMPDIR
Directory for temporary files (default: None)
-o OUTDIR, --outdir OUTDIR
Directory for synteny block output files (default:
None)
テストラン1
Helicobacter_pyloriのゲノムを調べ、ゲノム内で互いに相同性がある領域を検出。標準設定では5000bp以上に渡って似た領域を検出する(遺伝子クラスターなどが引っかかる)。
cd examples/Sibelia/Helicobacter_pylori/
Sibelia -v -s loose -m 5000 Helicobacter_pylori.fasta
- -v Draw circos diagram with blocks at different stages
- -s <loose | fine| far> Parameters set, used for the simplification. Option "loose" produces fewer blocks, but they are larger ("fine" is opposite)
出力
By default, Sibelia filters out synteny blocks shorter than 5 000 BP. You can change this behaviour, see section "Minimum block size".
-vをつけると、circosを使って可視化もされる。
> d3_blocks_diagram.html
テストラン2
Staphylococcus_aureusのゲノムを調べる(basic usage)。out_dirディレクトリを作成し、そこに出力する。
cd examples/Sibelia/Staphylococcus_aureus/
Sibelia -s loose -o out_dir Staphylococcus.fasta
テストラン3
2つのゲノムを比較してシンテニーブロック領域をVCF(v4.1)でコール
cd examples/C-Sibelia/Staphylococcus_aureus/
C-Sibelia.py -o out_dir NCTC8325.fasta RN4220.fasta
VCF出力
引用
Sibelia: A Scalable and Comprehensive Synteny Block Generation Tool for Closely Related Microbial Genomes
Ilya Minkin, Anand Patel, Mikhail Kolmogorov, Nikolay Vyahhi, Son Pham
International Workshop on Algorithms in Bioinformatics
WABI 2013: Algorithms in Bioinformatics pp 215-229
C-Sibelia: an easy-to-use and highly accurate tool for bacterial genome comparison
Minkin I, Pham H, Starostina E, Vyahhi N, Pham S
F1000Res. 2013 Nov 25;2:258
より大規模なゲノム比較を行えるSibeliaZも発表されています。
https://www.biorxiv.org/content/10.1101/548123v1
追記
関連