macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

BinSPreader

 

 近年、ハイスループットなシーケンシングが進んでいるが、微生物集団のメタゲノム解析は依然として困難な状況にある。特に、メタゲノムで構築されたゲノム(MAG)は、種間反復、カバレッジの不均一、菌株数の変動などにより、しばしば断片化されている。MAGは、入力データの特徴を利用して、同一種に属すると推定される長いコンティグをクラスタリングするビニング処理によって構築される。このツールは、アセンブリグラフのトポロジーやその他の接続情報を利用して、ビニングを改良し、ビニングエラーを修正し、ビニングを短いコンティグに伝播させるものである。BinSPreaderは、純度を犠牲にすることなくビンの完全性を高めることができ、複数のMAGに属するコンティグを予測することができることを示す。

 

HP

http://cab.spbu.ru/software/binspreader/

 

インストール

BinSPreaderはSPAdes上に実装されており、SPAdesパッケージの一部として公開予定となっている。現在、BinSPreaderを含むSPAdesパッケージのプレリリースバージョンをダウンロードしてビルドできるようになっている。

ビルド依存

  • g++ (version 5.3.1 or higher)
  • cmake (version 3.12 or higher)
  • zlib
  • libbz2

Github;BinSPreader: early access version

https://github.com/ablab/spades/releases/tag/binspreader-recombseq

cd spades/assembler/
mkdir build && cd build && cmake ../src
make bin-refine
cd bin/

> ./bin-refine

$ ./bin-refine 

SYNOPSIS

        ./bin-refine <graph (in binary or GFA)> <file with binning from binner in .tsv format> <output path to write binning results after propagation> [--paths <contig.paths>] [--dataset <yaml>] [-l <value>] [-t <value>] [-e <eps>] [-n <value>] [-m] [-Smax|-Smle] [-Rcorr|-Rprop] [--cami] [--zero-bin] [--tall-multi] [--bin-dist] [-la <labeled alpha>] [--sparse-propagation] [--no-unbinned-bin] [-ma <--metaalpha>] [-lt <--length-threshold>] [-db <--distance-bound>] [-r] [-b <threshold>] [--bin-load] [--debug] [--tmp-dir <dir>]

 

OPTIONS

        --paths <contig.paths>

                    use contig paths from file

 

        --dataset <yaml>

                    dataset description (in YAML)

 

        -l <value>  library index (0-based, default: 0)

        -t <value>  # of threads to use

        -e <eps>    convergence relative tolerance threshold

        -n <value>  maximum number of iterations

        -m          allow multiple bin assignment

        -Smax|-Smle binning assignment strategy

 

        -Rcorr|-Rprop

                    binning refiner type

 

        --cami      use CAMI bioboxes binning format

        --zero-bin  emit zero bin for unbinned sequences

 

        --tall-multi

                    use tall table for multiple binning result

 

        --bin-dist  estimate pairwise bin distance (could be slow on large graphs!)

 

        -la <labeled alpha>

                    labels correction alpha for labeled data

 

        Sparse propagation options:

            --sparse-propagation

                    Gradually reduce alpha from binned to unbinned edges

 

            --no-unbinned-bin

                    Do not create a special bin for unbinned contigs

 

            -ma <--metaalpha>

                    Labels correction alpha for sparse propagation procedure

 

            -lt <--length-threshold>

                    Binning will not be propagated to edges longer than threshold

 

            -db <--distance-bound>

                    Binning will not be propagated further than bound

 

        Read splitting options:

            -r, --reads

                    split reads according to binning

 

            -b, --bin-weight <threshold>

                    reads bin weight threshold

 

        Developer options:

            --bin-load

                    load binary-converted reads from tmpdir

 

            --debug produce lots of debug data

 

            --tmp-dir <dir>

                    scratch directory to use

 

 

実行方法

リファインするためのbinning結果と、情報ソースとしてGFA 1.0フォーマットのアセンブリグラフを必要とする。オプションで複数のHi-Cやペアエンドライブラリを使用することもできる。

bin-refine assembly.gfa binning.tsv output_dir

 

 

 

引用

BinSPreader: Refine binning results for fuller MAG reconstruction

Ivan Tolstoganov, Yuri Kamenev, Roman Kruglikov, Sofia Ochkalova, Anton Korobeynikov

iScience. 2022 Jul 19;25(8):104770.