macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Whisper 2

 

第3世代のシーケンシングの開発にもかかわらず、高いスループットと低いエラーレートのショートリードプラットフォームは多くの生物学的分析に不可欠なままである。 これらは、とりわけ、スモール(Kim et al、2018)および構造(Cameron et al。、2019)変異コールだが、RNA配列(Stark et al。、2019)またはゲノムアセンブリ(Bertrand et al。、2019)にも当てはまる。 バリアントコーラーの大部分はリファレンスゲノムへのリードのマッピングを必要とするため、マッピングの信頼性は、バリアントコールの精度にとって重要である。ここではショートリードマッピングアルゴリズムであるWhisper 2を紹介する。 Whisper 2は Indel処理のための新しい手順を備えており、優れた精度を他と競合力のある実行時間で提供するバリアントコールパイプラインである。

 

 

インストール

ubuntu18.04LTSでテストした。

本体 Github

リリースからバージョンv2.0をダウンロードする。

./whisper

# ./whisper

Whisper v. 2.0 (2019-12-15)

Usage:

   whisper [options] <index_name> @<files> 

   whisper [options] <index_name> file_se 

   whisper [options] <index_name> file_pe1 file_pe2

Parameters:

  index_name   - name of the index (as created by asm_pp)

  files        - name of the file containing list of FASTQ files with seq. reads

  file_se      - FASTQ file (single-end)

  file_pe[1|2] - FASTQ files (paired-end)

Options:

  -b <value> - no. of temporary files (minimum: 100, default: 384)

  -clipping-distance <value> - no. of sigmas for max. additional distance in clipping (default: 14)

  -d[fr/ff/rf] - mapping orientation (default: -dfr (forward - reverse)

  -dist_paired <value> - max. distance for paired read (default: 1000)

  -e <value> - max. no of errors (default: auto)

  -e-paired <value> - max. fraction of errors in paired read (default: 0.09)

  -enable-boundary-clipping <value> - enable clipping at boundaries when a lot of mismatches appears (default: 1)

  -enable-mapping_indels <value> - enable looking for long indels during mapping stages (default: 1)

  -enable-short-indel-refinement <value> - enable short indel refinement after mapping (default: 1)

  -enable-short-reads <value> - enable reads shorter than 90% of the longest reads (default: 0)

  -filter <value> - store only mappings for given chromosome (default: )

  -gap-del-open <value> - score for gap (del) open (default: -5)

  -gap-del-extend <value> - score for gap (del) extend (default: -0.4)

  -gap-ins-open <value> - score for gap (ins) open (default: -5)

  -gap-ins-extend <value> - score for gap (ins) extend (default: -0.4)

  -gzipped-SAM-level <value> - gzip compression level of SAM/BAM, 0 - no compression (default: 0)

  -high-confidence-sigmas <value> - (default: 4)

  -hit-merging-threshold <value> - minimal distance between different mappings (default: 12)

  -hit-merging-wrt-first <value> - calculate distance in marged group w.r.t. first (default: 1)

  -m[f/s/a] - mode: first stratum/second stratum/all strata (default: first stratum)

  -mask-lqb <value> - mask bases of quality lower than value (default: 0)

  -max-indel-len <value> - max. indel length (default: 50)

  -min-clipped-factor <value> - mask bases of quality lower than value (default: 1)

  -out <name> - name of the output file (default: whisper)

  -penalty-saturation <value> - no. of sigmas for max. penalty in matching pairs (default: 7)

  -rg <read_group> - complete read group header line, ? ? character will be converted to a TAB in the output SAM while the read group ID will be attached to every read (example line: ?@RG id:foo SM:bar?)

  -r[s|p] - single or paired-end reads (default: single)

  -score-discretization-threshold (default: 0.5)

  -score-clipping <value> score for clipping (default: -6)

  -score-match <value> - score for matching symbol (default: 1)

  -score-mismatch <value> - score for mismatching symbol (default: -5)

  -sens <value> - turn on/off sensitive mode (default: 1)

  -sens-factor <value> - sensitivity factor (default: 2.5)

  -stdout - use stdout to store the output (default: 0)

  -store-BAM - turn on saving in BAM (default: 0)

  -t <value> - no. of threads (0-adjust to hardware) (default: 0)

  -temp <name> - prefix for temporary files (default: ./whisper_temp_)

  -x - load complete suffix arrays in main memory (default: 0)

Examples:

  whisper human @files

  whisper -temp temp/ human reads1.fq reads2.fq

  whisper -out result.sam -temp temp/ -t 12 human reads1.fq reads2.fq

./whisper-index

# ./whisper-index 

Whisper index construction v. 2.0 (2019-12-15)

Usage: 

   whisper-index <index_name> <ref_seq_file_name> <dest_dir> <temp_dir>

   whisper-index <index_name> <@ref_seq_files_name> <dest_dir> <temp_dir>

Hints:

   * vcf_name can be . if not used

 

 

実行方法

1、indexing

whisper-index hg38-chr20 chr20.fa index-dir temp-dir

  

2、mapping

whisper hg38-chr20 pair_1.fq pair_2.fq

  

引用

Whisper 2: indel-sensitive short read mapping

Sebastian Deorowicz, Adam Gudys

bioRxiv preprint first posted online Dec. 19, 2019

 

Whisper: read sorting allows robust mapping of DNA sequencing data
Sebastian Deorowicz, Agnieszka Debudaj-Grabysz, Adam Gudyś, Szymon Grabowski
Bioinformatics, Volume 35, Issue 12, June 2019, Pages 2043–2050