近年、ハイスループットなシーケンシングが進んでいるが、微生物集団のメタゲノム解析は依然として困難な状況にある。特に、メタゲノムで構築されたゲノム(MAG)は、種間反復、カバレッジの不均一、菌株数の変動などにより、しばしば断片化されている。MAGは、入力データの特徴を利用して、同一種に属すると推定される長いコンティグをクラスタリングするビニング処理によって構築される。このツールは、アセンブリグラフのトポロジーやその他の接続情報を利用して、ビニングを改良し、ビニングエラーを修正し、ビニングを短いコンティグに伝播させるものである。BinSPreaderは、純度を犠牲にすることなくビンの完全性を高めることができ、複数のMAGに属するコンティグを予測することができることを示す。
HP
http://cab.spbu.ru/software/binspreader/
インストール
BinSPreaderはSPAdes上に実装されており、SPAdesパッケージの一部として公開予定となっている。現在、BinSPreaderを含むSPAdesパッケージのプレリリースバージョンをダウンロードしてビルドできるようになっている。
ビルド依存
- g++ (version 5.3.1 or higher)
- cmake (version 3.12 or higher)
- zlib
- libbz2
Github;BinSPreader: early access version
https://github.com/ablab/spades/releases/tag/binspreader-recombseq
cd spades/assembler/
mkdir build && cd build && cmake ../src
make bin-refine
cd bin/
> ./bin-refine
$ ./bin-refine
SYNOPSIS
./bin-refine <graph (in binary or GFA)> <file with binning from binner in .tsv format> <output path to write binning results after propagation> [--paths <contig.paths>] [--dataset <yaml>] [-l <value>] [-t <value>] [-e <eps>] [-n <value>] [-m] [-Smax|-Smle] [-Rcorr|-Rprop] [--cami] [--zero-bin] [--tall-multi] [--bin-dist] [-la <labeled alpha>] [--sparse-propagation] [--no-unbinned-bin] [-ma <--metaalpha>] [-lt <--length-threshold>] [-db <--distance-bound>] [-r] [-b <threshold>] [--bin-load] [--debug] [--tmp-dir <dir>]
OPTIONS
--paths <contig.paths>
use contig paths from file
--dataset <yaml>
dataset description (in YAML)
-l <value> library index (0-based, default: 0)
-t <value> # of threads to use
-e <eps> convergence relative tolerance threshold
-n <value> maximum number of iterations
-m allow multiple bin assignment
-Smax|-Smle binning assignment strategy
-Rcorr|-Rprop
binning refiner type
--cami use CAMI bioboxes binning format
--zero-bin emit zero bin for unbinned sequences
--tall-multi
use tall table for multiple binning result
--bin-dist estimate pairwise bin distance (could be slow on large graphs!)
-la <labeled alpha>
labels correction alpha for labeled data
Sparse propagation options:
--sparse-propagation
Gradually reduce alpha from binned to unbinned edges
--no-unbinned-bin
Do not create a special bin for unbinned contigs
-ma <--metaalpha>
Labels correction alpha for sparse propagation procedure
-lt <--length-threshold>
Binning will not be propagated to edges longer than threshold
-db <--distance-bound>
Binning will not be propagated further than bound
Read splitting options:
-r, --reads
split reads according to binning
-b, --bin-weight <threshold>
reads bin weight threshold
Developer options:
--bin-load
load binary-converted reads from tmpdir
--debug produce lots of debug data
--tmp-dir <dir>
scratch directory to use
実行方法
リファインするためのbinning結果と、情報ソースとしてGFA 1.0フォーマットのアセンブリグラフを必要とする。オプションで複数のHi-Cやペアエンドライブラリを使用することもできる。
bin-refine assembly.gfa binning.tsv output_dir
引用
BinSPreader: Refine binning results for fuller MAG reconstruction
Ivan Tolstoganov, Yuri Kamenev, Roman Kruglikov, Sofia Ochkalova, Anton Korobeynikov
iScience. 2022 Jul 19;25(8):104770.