macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードのアラインメントツール minialign

 

 Minialignは、PacBioやNanoporeのロングリード用に設計された、高速で中程度の精度のヌクレオチド配列アライメントツールである。ミニマップオーバーラッパーのミニマイザーベースのインデックス、配列ベースのシードチェイニング、SIMD-パラレルSmith-Waterman-Gotoh拡張の3つのキーアルゴリズムに基づいて構築されている。

 

インストール

condaを使ってpython3.8の仮想環境に導入した。

Github

#bioconda (link)
conda create -n minialign -y
conda activate minialign
conda install -c bioconda -y minialign

minialign -h

$ minialign -h

 

  minialign - fast aligner for PacBio and Nanopore long reads

 

minialign is a fast long-read (nucleotide sequence) alignment tool built on

the top of minimap long-read overlapper adopting libgaba SIMD-parallelized

Smith-Waterman extension algorithm.

 

Usage:

  first trial:

    $ minialign -t4 -xont <ref.fa> <ont2d.{fa,fq,bam}> > mapping.sam

 

  mapping on a prebuilt index (saves ~1min for human genome per run):

    $ minialign [indexing options] -d <index.mai> <ref.fa>

    $ minialign -l <index.mai> <reads.{fa,fq,bam}> > mapping.sam

 

  all-versus-all alignment in a read set:

    $ minialign -X -xava <reads.fa> [<reads.fa> ...] > allvsall.paf

 

Options:

  Global:

    -x STR       load preset params {pacbio,ont,ava} [ont]

    -t INT       number of threads [1]

    -X           switch to all-versus-all alignment mode

    -v           show version number [0.5.2-unknown]

  Indexing:

    -k INT       k-mer size [15]

    -w INT       minimizer window size [{-k}*2/3]

    -d FILE      dump index to FILE

    -l FILE      load index from FILE (overriding -k and -w)

  Mapping:

    -a INT       match award [1]

    -b INT       mismatch penalty [1]

    -p INT       gap open penalty [1]

    -q INT       gap extension penalty [1]

    -s INT       minimum alignment score [50]

    -m INT       minimum alignment score ratio [0.30]

  Output:

    -O STR       output format {sam,maf,blast6,blasr1,blasr4,paf,mhap,falcon} [sam]

    -Q           include quality string

    -R STR       read group header line, like "@RG\tID:1"

    -T STR,...   list of optional tags: {RG,AS,XS,NM,NH,IH,SA,MD}

                   RG is also inferred from -R

                   supp. records are omitted when SA tag is enabled

 

  Pass -hVV to show all the options.

 

 実行方法

ゲノムへのマッピング

#ONT
minialign -t 8 -x ont ref.fa ont.fq > mapping.sam

#pacbio
minialign -t 8 -x pacbio ref.fa pacbio.fq > mapping.sam
  • -x    load preset params {pacbio,ont,ava} [ont] 

 

all versus all read alignment (de novo assembly)

minialign -t 8 -X -x ava lonmg_reads.fq lonmg_reads.fq > align.paf
  • -X   switch to all-versus-all alignment mode

 

引用

GitHub - ocxtal/minialign: fast and accurate alignment tool for PacBio and Nanopore long reads

 

関連