macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

マルチプルアラインメント結果からコンセンサス配列を出力するEMBOSSのconsコマンド

2020 9/25 help修正

 

タイトルの通りのコマンド。

 

HP

EMBOSS: cons

 

インストール

macos10.12の miniconda3-4.3.21環境でテストした。

condaやbrewで導入できる。

#bioconda (link) 
conda install -c bioconda -y emboss

#homebrew
brew install emboss

> cons -help

$ cons -help

Create a consensus sequence from a multiple alignment

Version: EMBOSS:6.6.0.0

 

   Standard (Mandatory) qualifiers:

  [-sequence]          seqset     File containing a sequence alignment.

  [-outseq]            seqout     [<sequence>.<format>] Sequence filename and

                                  optional format (output USA)

 

   Additional (Optional) qualifiers:

   -datafile           matrix     [EBLOSUM62 for protein, EDNAFULL for DNA]

                                  This is the scoring matrix file used when

                                  comparing sequences. By default it is the

                                  file 'EBLOSUM62' (for proteins) or the file

                                  'EDNAFULL' (for nucleic sequences). These

                                  files are found in the 'data' directory of

                                  the EMBOSS installation.

   -plurality          float      [Half the total sequence weighting] Set a

                                  cut-off for the number of positive matches

                                  below which there is no consensus. The

                                  default plurality is taken as half the total

                                  weight of all the sequences in the

                                  alignment. (Any numeric value)

   -identity           integer    [0] Provides the facility of setting the

                                  required number of identities at a site for

                                  it to give a consensus at that position.

                                  Therefore, if this is set to the number of

                                  sequences in the alignment only columns of

                                  identities contribute to the consensus.

                                  (Integer 0 or more)

   -setcase            float      [@( $(sequence.totweight) / 2)] Sets the

                                  threshold for the positive matches above

                                  which the consensus is is upper-case and

                                  below which the consensus is in lower-case.

                                  (Any numeric value)

   -name               string     Name of the consensus sequence (Any string)

 

   Advanced (Unprompted) qualifiers: (none)

   General qualifiers:

   -help               boolean    Report command line options and exit. More

                                  information on associated and general

                                  qualifiers can be found with -help -verbose

 

(base) kamisakakazumanoMac-mini:9859 kazu$ 

実行方法

たえばmafft紹介)でマルチプルシーケンスアラインメントを行い、出力からコンセンサス配列を得る。consと打って実行。

cons

入力のFASTAと出力のFASTA名を順番に入力する。

$ cons

Create a consensus sequence from a multiple alignment

Input (aligned) sequence set: 

 

またはinputとoutputのfasta名を指定して実行。

cons inut.maf output.fasta

 

引用

EMBOSS: the European Molecular Biology Open Software Suite.
Rice P, Longden I, Bleasby A

Trends Genet. 2000 Jun;16(6):276-7.

 

関連