macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

EST配列をゲノムにアラインメントするEMBOSSの est2genome

 

 est2genomeは、スプライスされていないゲノムDNA配列にスプライスされたヌクレオチド配列(ESTのcDNAまたはmRNA)のセットをアラインメントし、必要に応じて任意の長さのイントロンを挿入するプログラムである。イントロン境界は、デフォルトではスプライスコンセンサスのジヌクレオチドGTとAGで開始・停止する。デフォルトでは、est2genomeは3つのアラインメントを行う。まず、スプライスコンセンサスがGT/AGであると仮定して、スプライス配列の両ストランドをゲノム配列の前方ストランドと比較する(すなわち、遺伝子の前方方向)。その後、スプライスコンセンサスCT/ACを想定して、最大スコアの方向を再調整する(すなわち、逆方向の遺伝子の方向)。デフォルトでは、全体的な最大スコアのアラインメントのみが報告され、それが特定の最小閾値スコアよりも高いスコアである場合には、それが報告される。オプションで、すべての比較を報告することもできる。

 est2genomeは見つかったエクソンイントロンのリストを出力する。フォーマットはMSPcrunchのようなもので、一致するセグメントのリストである。この形式は、他のソフトウェアへの解析が容易である。このプログラムはまた、スプライスサイトの情報に基づいて、遺伝子の予測される転写の方向を示す。オプションで、完全な配列のアラインメントも表示される。

 

HP

http://www.sacs.ucsf.edu/Documentation/emboss/est2genome.html

emboss explorer

http://www.bioinformatics.nl/cgi-bin/emboss/est2genome

 

 

インストール

condaやbrewで導入できる。

#bioconda
conda install -c bioconda -y emboss

#homebrew
brew install emboss

est2genome -h

$ est2genome -h

Align EST sequences to genomic DNA sequence

Version: EMBOSS:6.6.0.0

 

   Standard (Mandatory) qualifiers:

  [-estsequence]       seqall     Spliced EST nucleotide sequence(s)

  [-genomesequence]    sequence   Unspliced genomic nucleotide sequence

  [-outfile]           outfile    [*.est2genome] Output file name

 

   Additional (Optional) qualifiers:

   -match              integer    [1] Score for matching two bases (Any

                                  integer value)

   -mismatch           integer    [1] Cost for mismatching two bases (Any

                                  integer value)

   -gappenalty         integer    [2] Cost for deleting a single base in

                                  either sequence, excluding introns (Any

                                  integer value)

   -intronpenalty      integer    [40] Cost for an intron, independent of

                                  length. (Any integer value)

   -splicepenalty      integer    [20] Cost for an intron, independent of

                                  length and starting/ending on donor-acceptor

                                  sites (Any integer value)

   -minscore           integer    [30] Exclude alignments with scores below

                                  this threshold score. (Any integer value)

 

   Advanced (Unprompted) qualifiers:

   -reverse            boolean    Reverse the orientation of the EST sequence

   -[no]usesplice      boolean    [Y] Use donor and acceptor splice sites. If

                                  you want to ignore donor-acceptor sites then

                                  set this to be false.

   -mode               menu       [both] This determines the comparison mode.

                                  The default value is 'both', in which case

                                  both strands of the est are compared

                                  assuming a forward gene direction (ie GT/AG

                                  splice sites), and the best comparison

                                  redone assuming a reversed (CT/AC) gene

                                  splicing direction. The other allowed modes

                                  are 'forward', when just the forward strand

                                  is searched, and 'reverse', ditto for the

                                  reverse strand. (Values: both (Both

                                  strands); forward (Forward strand only);

                                  reverse (Reverse strand only))

   -[no]best           boolean    [Y] You can print out all comparisons

                                  instead of just the best one by setting this

                                  to be false.

   -space              float      [10.0] For linear-space recursion. If

                                  product of sequence lengths divided by 4

                                  exceeds this then a divide-and-conquer

                                  strategy is used to control the memory

                                  requirements. In this way very long

                                  sequences can be aligned.

                                  If you have a machine with plenty of memory

                                  you can raise this parameter (but do not

                                  exceed the machine's physical RAM) (Any

                                  numeric value)

   -shuffle            integer    [0] Shuffle (Any integer value)

   -seed               integer    [20825] Random number seed (Any integer

                                  value)

   -align              boolean    Show the alignment. The alignment includes

                                  the first and last 5 bases of each intron,

                                  together with the intron width. The

                                  direction of splicing is indicated by angle

                                  brackets (forward or reverse) or ????

                                  (unknown).

   -width              integer    [50] Alignment width (Any integer value)

 

   General qualifiers:

   -help               boolean    Report command line options and exit. More

                                  information on associated and general

                                  qualifiers can be found with -help -verbose

 

 

 

実行方法

入力のEST配列とgenome.fasta、出力名を指定する。est2genomeとだけ叩くと、対話モードで実行できる。

est2genome est.fa genome.fa output.aln 
  • -[no] best boolean [Y] You can print out all comparisons
    instead of just the best one by setting this
    to be false.

出力

f:id:kazumaxneo:20201025172448p:plain

 

こちらの査読前論文で使われているが、ゲノム全長を使うとかなりの時間がかかるので注意。

引用

EMBOSS: the European Molecular Biology Open Software Suite.
Rice P, Longden I, Bleasby A

Trends Genet. 2000 Jun;16(6):276-7

 

関連