HTS (NGS) 関連のインフォマティクス情報についてまとめています。



 BURST は、数学的に最適化されたハイスループットなエンドツーエンドのショートリード DNA アライナーである。BURSTは、292-bpの1,200万微生物アンプリコン配列をGreengenes 参照データベースに対して、E7-4850v2サーバーでは10分以内、2013年製デュアルコアMacbook Airでは数時間でアラインメントすることができる。32コアのIvy Bridgeサーバー1台で、RefSeqの31.5GBの完全ゲノムサブセットに対して、毎秒10,000以上の100 bpリードを98%のアラインメント同一性でアラインメントできる。オプションのヒューリスティックモードにより、より低い類似度スコアでより高速なアラインメントを可能にする。




リリースより使っているOS (WindowsLinuxMac)に適した実行形式ファイルをダウンロードする。


# ./burst_linux_DB15

This is BURST [v1.0 DB 15]


BURST aligner (v1.0; DB15 version)

Compiled with AVX-128 and multithreading


Basic parameters:

--references (-r) <name>: FASTA/edx DB of reference sequences [required]

--accelerator (-a) <name>: Creates/uses a helper DB (acc/acx) [optional]

--queries (-q) <name>: FASTA file of queries to search [required if aligning]

--output (-o) <name>: Blast6/edb file for output alignments/database [required]


Behavior parameters:

--forwardreverse (-fr): also search the reverse complement of queries

--whitespace (-w): write full query names in output (include whitespace)

--xalphabet (-x): Allow any alphabet and disable ambiguity matching

--nwildcard (-y): Allow N,X to match anything (in query and reference)

--taxonomy (-b) <name>: taxonomy map (to interpolate, use -m CAPITALIST)

--mode (-m) <name>: Pick an alignment reporting mode by name. Available modes:

  BEST (report first best match by hybrid BLAST id)

  ALLPATHS (report all ties with same error profile)

  CAPITALIST (minimize set of references AND interpolate taxonomy) [default]

  FORAGE (report all matches above specified threshold)

  ANY (report any valid hit above specified threshold)

--makedb (-d) [name qLen]: Create a database from input references

  [name]: Optional. Can be DNA, RNA, or QUICK [QUICK]

  [qLen]: Optional. Max query length to search in DB [500]


Performance parameters:

--dbpartition (-dp) <int>: Split DB making into <int> chunks (lossy) [1]

--taxacut (-bc) <num>: allow 1/<int> rank discord OR % conf; 1/[10]

--taxa_ncbi (-bn): Assume NCBI header format '>xxx|accsn...' for taxonomy

--skipambig (-sa): Do not consider highly ambiguous queries (5+ ambigs)

--taxasuppress (-bs) [STRICT]: Suppress taxonomic specificity by %ID

--id (-i) <decimal>: target minimum similarity (range 0-1) [0.97]

--threads (-t) <int>: How many logical processors to use [4]

--shear (-s) [len]: Shear references longer than [len] bases [500]

--fingerprint (-f): Use sketch fingerprints to precheck matches (or cluster db)

--prepass (-p) [speed]: use ultra-heuristic pre-matching

  [speed]: Optional. Integer, maximum search effort [16]

--heuristic (-hr): allow relaxed comparison of low-id matches

--noprogress: suppress progress indicator


--help (-h): Shows this help screen with version info


Example: burst -r myRefs.fasta -q myQs.fasta -o outputs.txt -i 0.98


Licensed under the GNU Affero General Public License v3.0





burst -r MyDB.fasta -a MyDB.acx -o MyDB.edx -d DNA -s



burst -q myQueries.fasta -a MyDB.acx -r MyDB.edx -o output.txt




BURST enables mathematically optimal short-read alignment for big data
Gabriel Al-Ghalith,Dan Knights

bioRxiv, Posted September 08, 2020