macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

超高速な配列検索エンジン BIGSI

 2020 4/30 追記

 

 グローバルアーカイブには、未処理の細菌およびウイルスのゲノム配列データが指数関数的に増加している。これらのデータに配列検索用語を検索する機能があれば、基礎研究はもちろん、リアルタイムのゲノム疫学やサーベイランスなどのアプリケーションも容易になるだろう。しかし、これは現在の方法では不可能である。この問題を解決するために、微生物集団ゲノムに関する知識とウェブ検索のために考案された計算手法を組み合わせて、BItsliced Genomic Signature Index (BIGSI)という検索可能なデータ構造を作成した。その結果、従来の方法に比べて4桁も少ない保存量で、447,833の細菌およびウイルスの全ゲノム配列データセットからなる全世界コーパスのインデックスを作成した。BIGSIの検索機能を利用して、抗生物質耐性遺伝子MCR-1、MCR-2、MCR-3を迅速に検索し、2,827のプラスミドの宿主範囲を決定し、アーカイブされたデータセット抗生物質耐性を定量化した。また、新規(未処理またはアセンブル)の配列データセットが堆積してくると、インデックスは増加していき、数百万件のデータセットにスケールアップすることができる。 

 

このツイートも載せておきます。

 

インストール

Github

導入手順は公式の手順を参照

https://bigsi.readme.io/docs/installation-on-mac

 

ここでは用意されているdockerイメージを使用する。

docker pull phelimb/bigsi

 > docker run phelimb/bigsi bigsi --help

$ sudo docker run phelimb/bigsi bigsi --help

[sudo] password for kazu: 

bigsi-v0.3.5

 

Available Commands:

 

- bloom

- build

- bulk_search

- delete

- insert

- merge

- search

- variant_search

> docker run phelimb/bigsi bigsi bloom --help

$ docker run phelimb/bigsi bigsi bloom --help

usage: bigsi-v0.3.5 bloom [-h] [-c CONFIG] ctx outfile

 

Creates a bloom filter from a sequence file or cortex graph.

(fastq,fasta,bam,ctx) e.g. index insert ERR1010211.ctx

 

positional arguments:

  ctx

  outfile

 

optional arguments:

  -h, --help            show this help message and exit

  -c CONFIG, --config CONFIG 

docker run phelimb/bigsi bigsi build --help

$ docker run phelimb/bigsi bigsi build --help

usage: bigsi-v0.3.5 build [-h] [-b BLOOMFILTERS] [-s SAMPLES] [-f FROM_FILE]

                          [-c CONFIG]

 

optional arguments:

  -h, --help            show this help message and exit

  -b BLOOMFILTERS, --bloomfilters BLOOMFILTERS

                        Multiple Values

  -s SAMPLES, --samples SAMPLES

                        Multiple Values

  -f FROM_FILE, --from_file FROM_FILE

                        Basic text / string value

  -c CONFIG, --config CONFIG

                        Basic text / string value

docker run phelimb/bigsi bigsi bulk_search --help

$ docker run phelimb/bigsi bigsi bulk_search --help

usage: bigsi-v0.3.5 bulk_search [-h] [-t THRESHOLD] [-c CONFIG] [-s]

                                [-f {json,csv}] [-st]

                                fasta

 

positional arguments:

  fasta                 Basic text / string value

 

optional arguments:

  -h, --help            show this help message and exit

  -t THRESHOLD, --threshold THRESHOLD

                        A float number

  -c CONFIG, --config CONFIG

                        Basic text / string value

  -s, --score           Accepts a true or false value

  -f {json,csv}, --format {json,csv}

                        Accepts one of the following values: (json|csv)

  -st, --stream         Accepts a true or false value

docker run phelimb/bigsi bigsi variant_search --help

$ docker run phelimb/bigsi bigsi variant_search --help

usage: bigsi-v0.3.5 variant_search [-h] [-g GENE] [-ge GENBANK] [-c CONFIG]

                                   [-f {json,csv}]

                                   reference ref pos alt

 

positional arguments:

  reference             Basic text / string value

  ref                   Basic text / string value

  pos                   A whole number

  alt                   Basic text / string value

 

optional arguments:

  -h, --help            show this help message and exit

  -g GENE, --gene GENE  Basic text / string value

  -ge GENBANK, --genbank GENBANK

                        Basic text / string value

  -c CONFIG, --config CONFIG

                        Basic text / string value

  -f {json,csv}, --format {json,csv}

                        Accepts one of the following values: (json|csv)

> docker run phelimb/bigsi bigsi insert --help

$ docker run phelimb/bigsi bigsi insert --help

usage: bigsi-v0.3.5 insert [-h] config bloomfilter sample

 

Inserts a bloom filter into the graph e.g. bigsi insert ERR1010211.bloom

ERR1010211

 

positional arguments:

  config       Basic text / string value

  bloomfilter

  sample

 

optional arguments:

  -h, --help   show this help message and exit

> docker run phelimb/bigsi bigsi delete --help

$ docker run phelimb/bigsi bigsi delete --help

usage: bigsi-v0.3.5 delete [-h] [-c CONFIG]

 

optional arguments:

  -h, --help            show this help message and exit

  -c CONFIG, --config CONFIG

                        Basic text / string value

> docker run phelimb/bigsi bigsi merge --help

$  docker run phelimb/bigsi bigsi merge --help

 

 

usage: bigsi-v0.3.5 merge [-h] config merge_config

 

positional arguments:

  config        Basic text / string value

  merge_config  Basic text / string value

 

optional arguments:

  -h, --help    show this help message and exit

 

 

demo

(実際に配列を検索可能)

BIGSI Demo

f:id:kazumaxneo:20191104034812p:plain

テスト配列検索結果

f:id:kazumaxneo:20191104035036p:plain

 

 

 

作成中。

 

 

引用

Ultrafast search of all deposited bacterial and viral genomic data

Phelim Bradley, Henk C. den Bakker, Eduardo P. C. Rocha, Gil McVean & Zamin Iqbal
Nature Biotechnology volume 37, pages152–159 (2019)

 

関連