macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

BURST

 

 次世代のDNAシーケンシングデータが計算能力が追いつかないほどの速さで出現しているため、基本的なDNAアライメント/マッピングの問題に対する近似ヒューリスティックな解法がますます使われるようになってきている。逆説的なことに、データが増えれば増えるほど、それを解析するために使用されるアライメントアルゴリズムの精度が低下する。ミスマッチがあるという制約の下で、完全な感度と特異性を持つアルゴリズムはより高速なアライメントを約束する技術のために無視されてきた。BURSTは、証明された最適なアライメントアルゴリズムのルーツに戻り、デフォルトの動作モードでアライメント品質を犠牲にすることなく、数百万倍のスピードアップで働く。
 BURST は、数学的に最適化されたハイスループットなエンドツーエンドのショートリード DNA アライナーである。BURSTは、292-bpの1,200万微生物アンプリコン配列をGreengenes 参照データベースに対して、E7-4850v2サーバーでは10分以内、2013年製デュアルコアMacbook Airでは数時間でアラインメントすることができる。32コアのIvy Bridgeサーバー1台で、RefSeqの31.5GBの完全ゲノムサブセットに対して、毎秒10,000以上の100 bpリードを98%のアラインメント同一性でアラインメントできる。オプションのヒューリスティックモードにより、より低い類似度スコアでより高速なアラインメントを可能にする。

 

インストール

Github

リリースより使っているOS (WindowsLinuxMac)に適した実行形式ファイルをダウンロードする。

https://github.com/knights-lab/burst/releases

./burst_linux_DB15

# ./burst_linux_DB15

This is BURST [v1.0 DB 15]

 

BURST aligner (v1.0; DB15 version)

Compiled with AVX-128 and multithreading

 

Basic parameters:

--references (-r) <name>: FASTA/edx DB of reference sequences [required]

--accelerator (-a) <name>: Creates/uses a helper DB (acc/acx) [optional]

--queries (-q) <name>: FASTA file of queries to search [required if aligning]

--output (-o) <name>: Blast6/edb file for output alignments/database [required]

 

Behavior parameters:

--forwardreverse (-fr): also search the reverse complement of queries

--whitespace (-w): write full query names in output (include whitespace)

--xalphabet (-x): Allow any alphabet and disable ambiguity matching

--nwildcard (-y): Allow N,X to match anything (in query and reference)

--taxonomy (-b) <name>: taxonomy map (to interpolate, use -m CAPITALIST)

--mode (-m) <name>: Pick an alignment reporting mode by name. Available modes:

  BEST (report first best match by hybrid BLAST id)

  ALLPATHS (report all ties with same error profile)

  CAPITALIST (minimize set of references AND interpolate taxonomy) [default]

  FORAGE (report all matches above specified threshold)

  ANY (report any valid hit above specified threshold)

--makedb (-d) [name qLen]: Create a database from input references

  [name]: Optional. Can be DNA, RNA, or QUICK [QUICK]

  [qLen]: Optional. Max query length to search in DB [500]

 

Performance parameters:

--dbpartition (-dp) <int>: Split DB making into <int> chunks (lossy) [1]

--taxacut (-bc) <num>: allow 1/<int> rank discord OR % conf; 1/[10]

--taxa_ncbi (-bn): Assume NCBI header format '>xxx|accsn...' for taxonomy

--skipambig (-sa): Do not consider highly ambiguous queries (5+ ambigs)

--taxasuppress (-bs) [STRICT]: Suppress taxonomic specificity by %ID

--id (-i) <decimal>: target minimum similarity (range 0-1) [0.97]

--threads (-t) <int>: How many logical processors to use [4]

--shear (-s) [len]: Shear references longer than [len] bases [500]

--fingerprint (-f): Use sketch fingerprints to precheck matches (or cluster db)

--prepass (-p) [speed]: use ultra-heuristic pre-matching

  [speed]: Optional. Integer, maximum search effort [16]

--heuristic (-hr): allow relaxed comparison of low-id matches

--noprogress: suppress progress indicator

 

--help (-h): Shows this help screen with version info

 

Example: burst -r myRefs.fasta -q myQs.fasta -o outputs.txt -i 0.98

 

Licensed under the GNU Affero General Public License v3.0

 

 

実行方法

1、データベースの作成

burst -r MyDB.fasta -a MyDB.acx -o MyDB.edx -d DNA -s

 

2、Search

burst -q myQueries.fasta -a MyDB.acx -r MyDB.edx -o output.txt

 

 

引用

BURST enables mathematically optimal short-read alignment for big data
Gabriel Al-Ghalith,Dan Knights

bioRxiv, Posted September 08, 2020

 

関連