次世代のDNAシーケンシングデータが計算能力が追いつかないほどの速さで出現しているため、基本的なDNAアライメント/マッピングの問題に対する近似ヒューリスティックな解法がますます使われるようになってきている。逆説的なことに、データが増えれば増えるほど、それを解析するために使用されるアライメントアルゴリズムの精度が低下する。ミスマッチがあるという制約の下で、完全な感度と特異性を持つアルゴリズムはより高速なアライメントを約束する技術のために無視されてきた。BURSTは、証明された最適なアライメントアルゴリズムのルーツに戻り、デフォルトの動作モードでアライメント品質を犠牲にすることなく、数百万倍のスピードアップで働く。
BURST は、数学的に最適化されたハイスループットなエンドツーエンドのショートリード DNA アライナーである。BURSTは、292-bpの1,200万微生物アンプリコン配列をGreengenes 参照データベースに対して、E7-4850v2サーバーでは10分以内、2013年製デュアルコアMacbook Airでは数時間でアラインメントすることができる。32コアのIvy Bridgeサーバー1台で、RefSeqの31.5GBの完全ゲノムサブセットに対して、毎秒10,000以上の100 bpリードを98%のアラインメント同一性でアラインメントできる。オプションのヒューリスティックモードにより、より低い類似度スコアでより高速なアラインメントを可能にする。
インストール
リリースより使っているOS (Windows、Linux、Mac)に適した実行形式ファイルをダウンロードする。
https://github.com/knights-lab/burst/releases
> ./burst_linux_DB15
# ./burst_linux_DB15
This is BURST [v1.0 DB 15]
BURST aligner (v1.0; DB15 version)
Compiled with AVX-128 and multithreading
Basic parameters:
--references (-r) <name>: FASTA/edx DB of reference sequences [required]
--accelerator (-a) <name>: Creates/uses a helper DB (acc/acx) [optional]
--queries (-q) <name>: FASTA file of queries to search [required if aligning]
--output (-o) <name>: Blast6/edb file for output alignments/database [required]
Behavior parameters:
--forwardreverse (-fr): also search the reverse complement of queries
--whitespace (-w): write full query names in output (include whitespace)
--xalphabet (-x): Allow any alphabet and disable ambiguity matching
--nwildcard (-y): Allow N,X to match anything (in query and reference)
--taxonomy (-b) <name>: taxonomy map (to interpolate, use -m CAPITALIST)
--mode (-m) <name>: Pick an alignment reporting mode by name. Available modes:
BEST (report first best match by hybrid BLAST id)
ALLPATHS (report all ties with same error profile)
CAPITALIST (minimize set of references AND interpolate taxonomy) [default]
FORAGE (report all matches above specified threshold)
ANY (report any valid hit above specified threshold)
--makedb (-d) [name qLen]: Create a database from input references
[name]: Optional. Can be DNA, RNA, or QUICK [QUICK]
[qLen]: Optional. Max query length to search in DB [500]
Performance parameters:
--dbpartition (-dp) <int>: Split DB making into <int> chunks (lossy) [1]
--taxacut (-bc) <num>: allow 1/<int> rank discord OR % conf; 1/[10]
--taxa_ncbi (-bn): Assume NCBI header format '>xxx|accsn...' for taxonomy
--skipambig (-sa): Do not consider highly ambiguous queries (5+ ambigs)
--taxasuppress (-bs) [STRICT]: Suppress taxonomic specificity by %ID
--id (-i) <decimal>: target minimum similarity (range 0-1) [0.97]
--threads (-t) <int>: How many logical processors to use [4]
--shear (-s) [len]: Shear references longer than [len] bases [500]
--fingerprint (-f): Use sketch fingerprints to precheck matches (or cluster db)
--prepass (-p) [speed]: use ultra-heuristic pre-matching
[speed]: Optional. Integer, maximum search effort [16]
--heuristic (-hr): allow relaxed comparison of low-id matches
--noprogress: suppress progress indicator
--help (-h): Shows this help screen with version info
Example: burst -r myRefs.fasta -q myQs.fasta -o outputs.txt -i 0.98
Licensed under the GNU Affero General Public License v3.0
実行方法
1、データベースの作成
burst -r MyDB.fasta -a MyDB.acx -o MyDB.edx -d DNA -s
2、Search
burst -q myQueries.fasta -a MyDB.acx -r MyDB.edx -o output.txt
引用
BURST enables mathematically optimal short-read alignment for big data
Gabriel Al-Ghalith,Dan Knights
bioRxiv, Posted September 08, 2020
関連