2020 4/30 追記
グローバルアーカイブには、未処理の細菌およびウイルスのゲノム配列データが指数関数的に増加している。これらのデータに配列検索用語を検索する機能があれば、基礎研究はもちろん、リアルタイムのゲノム疫学やサーベイランスなどのアプリケーションも容易になるだろう。しかし、これは現在の方法では不可能である。この問題を解決するために、微生物集団ゲノムに関する知識とウェブ検索のために考案された計算手法を組み合わせて、BItsliced Genomic Signature Index (BIGSI)という検索可能なデータ構造を作成した。その結果、従来の方法に比べて4桁も少ない保存量で、447,833の細菌およびウイルスの全ゲノム配列データセットからなる全世界コーパスのインデックスを作成した。BIGSIの検索機能を利用して、抗生物質耐性遺伝子MCR-1、MCR-2、MCR-3を迅速に検索し、2,827のプラスミドの宿主範囲を決定し、アーカイブされたデータセットの抗生物質耐性を定量化した。また、新規(未処理またはアセンブル)の配列データセットが堆積してくると、インデックスは増加していき、数百万件のデータセットにスケールアップすることができる。
Hey, @alexmsalmeida and @robdfinn have made a BIGSI search index of a representative of genomes from their 280k genomes from the human gut. Paper https://t.co/DaZNGwG1dW and search here :https://t.co/MQYAVOemDI
— Zamin Iqbal (@ZaminIqbal) September 24, 2019
Mash better than bigsi for finding similar genomes. I think it would be hard to use it to find a specific sequence/gene/plasmid . And both not good for protein-space search. Depends on use case
— Zamin Iqbal (@ZaminIqbal) May 27, 2018
We're building a BIGSI ( https://t.co/WbHf8gtjf1) search index of that (all bacterial, viral, meta genomic sequence) set up to update as data is submitted to the ncbi /ENA. But it's not ready yet
— Zamin Iqbal (@ZaminIqbal) May 27, 2018
このツイートも載せておきます。
BigSi was incredible already. For those who don't know it yet: imagine running a sequence similarity search in a database 10,000 times bigger than NR. https://t.co/ml9uJyt5G9
— Daniel Gautheret (@DGautheret) May 28, 2019
インストール
導入手順は公式の手順を参照
https://bigsi.readme.io/docs/installation-on-mac
ここでは用意されているdockerイメージを使用する。
docker pull phelimb/bigsi
> docker run phelimb/bigsi bigsi --help
$ sudo docker run phelimb/bigsi bigsi --help
[sudo] password for kazu:
bigsi-v0.3.5
Available Commands:
- bloom
- build
- bulk_search
- delete
- insert
- merge
- search
- variant_search
> docker run phelimb/bigsi bigsi bloom --help
$ docker run phelimb/bigsi bigsi bloom --help
usage: bigsi-v0.3.5 bloom [-h] [-c CONFIG] ctx outfile
Creates a bloom filter from a sequence file or cortex graph.
(fastq,fasta,bam,ctx) e.g. index insert ERR1010211.ctx
positional arguments:
ctx
outfile
optional arguments:
-h, --help show this help message and exit
-c CONFIG, --config CONFIG
> docker run phelimb/bigsi bigsi build --help
$ docker run phelimb/bigsi bigsi build --help
usage: bigsi-v0.3.5 build [-h] [-b BLOOMFILTERS] [-s SAMPLES] [-f FROM_FILE]
[-c CONFIG]
optional arguments:
-h, --help show this help message and exit
-b BLOOMFILTERS, --bloomfilters BLOOMFILTERS
Multiple Values
-s SAMPLES, --samples SAMPLES
Multiple Values
-f FROM_FILE, --from_file FROM_FILE
Basic text / string value
-c CONFIG, --config CONFIG
Basic text / string value
> docker run phelimb/bigsi bigsi bulk_search --help
$ docker run phelimb/bigsi bigsi bulk_search --help
usage: bigsi-v0.3.5 bulk_search [-h] [-t THRESHOLD] [-c CONFIG] [-s]
positional arguments:
fasta Basic text / string value
optional arguments:
-h, --help show this help message and exit
-t THRESHOLD, --threshold THRESHOLD
A float number
-c CONFIG, --config CONFIG
Basic text / string value
-s, --score Accepts a true or false value
-f {json,csv}, --format {json,csv}
Accepts one of the following values: (json|csv)
-st, --stream Accepts a true or false value
> docker run phelimb/bigsi bigsi variant_search --help
$ docker run phelimb/bigsi bigsi variant_search --help
usage: bigsi-v0.3.5 variant_search [-h] [-g GENE] [-ge GENBANK] [-c CONFIG]
reference ref pos alt
positional arguments:
reference Basic text / string value
ref Basic text / string value
pos A whole number
alt Basic text / string value
optional arguments:
-h, --help show this help message and exit
-g GENE, --gene GENE Basic text / string value
-ge GENBANK, --genbank GENBANK
Basic text / string value
-c CONFIG, --config CONFIG
Basic text / string value
-f {json,csv}, --format {json,csv}
Accepts one of the following values: (json|csv)
> docker run phelimb/bigsi bigsi insert --help
$ docker run phelimb/bigsi bigsi insert --help
usage: bigsi-v0.3.5 insert [-h] config bloomfilter sample
Inserts a bloom filter into the graph e.g. bigsi insert ERR1010211.bloom
ERR1010211
positional arguments:
config Basic text / string value
bloomfilter
sample
optional arguments:
-h, --help show this help message and exit
> docker run phelimb/bigsi bigsi delete --help
$ docker run phelimb/bigsi bigsi delete --help
usage: bigsi-v0.3.5 delete [-h] [-c CONFIG]
optional arguments:
-h, --help show this help message and exit
-c CONFIG, --config CONFIG
Basic text / string value
> docker run phelimb/bigsi bigsi merge --help
$ docker run phelimb/bigsi bigsi merge --help
usage: bigsi-v0.3.5 merge [-h] config merge_config
positional arguments:
config Basic text / string value
merge_config Basic text / string value
optional arguments:
-h, --help show this help message and exit
demo
(実際に配列を検索可能)
テスト配列検索結果
作成中。
引用
Ultrafast search of all deposited bacterial and viral genomic data
Phelim Bradley, Henk C. den Bakker, Eduardo P. C. Rocha, Gil McVean & Zamin Iqbal
Nature Biotechnology volume 37, pages152–159 (2019)
関連