est2genomeは、スプライスされていないゲノムDNA配列にスプライスされたヌクレオチド配列(ESTのcDNAまたはmRNA)のセットをアラインメントし、必要に応じて任意の長さのイントロンを挿入するプログラムである。イントロン境界は、デフォルトではスプライスコンセンサスのジヌクレオチドGTとAGで開始・停止する。デフォルトでは、est2genomeは3つのアラインメントを行う。まず、スプライスコンセンサスがGT/AGであると仮定して、スプライス配列の両ストランドをゲノム配列の前方ストランドと比較する(すなわち、遺伝子の前方方向)。その後、スプライスコンセンサスCT/ACを想定して、最大スコアの方向を再調整する(すなわち、逆方向の遺伝子の方向)。デフォルトでは、全体的な最大スコアのアラインメントのみが報告され、それが特定の最小閾値スコアよりも高いスコアである場合には、それが報告される。オプションで、すべての比較を報告することもできる。
est2genomeは見つかったエクソンとイントロンのリストを出力する。フォーマットはMSPcrunchのようなもので、一致するセグメントのリストである。この形式は、他のソフトウェアへの解析が容易である。このプログラムはまた、スプライスサイトの情報に基づいて、遺伝子の予測される転写の方向を示す。オプションで、完全な配列のアラインメントも表示される。
HP
http://www.sacs.ucsf.edu/Documentation/emboss/est2genome.html
http://www.bioinformatics.nl/cgi-bin/emboss/est2genome
インストール
condaやbrewで導入できる。
#bioconda
conda install -c bioconda -y emboss
#homebrew
brew install emboss
> est2genome -h
$ est2genome -h
Align EST sequences to genomic DNA sequence
Version: EMBOSS:6.6.0.0
Standard (Mandatory) qualifiers:
[-estsequence] seqall Spliced EST nucleotide sequence(s)
[-genomesequence] sequence Unspliced genomic nucleotide sequence
[-outfile] outfile [*.est2genome] Output file name
Additional (Optional) qualifiers:
-match integer [1] Score for matching two bases (Any
integer value)
-mismatch integer [1] Cost for mismatching two bases (Any
integer value)
-gappenalty integer [2] Cost for deleting a single base in
either sequence, excluding introns (Any
integer value)
-intronpenalty integer [40] Cost for an intron, independent of
length. (Any integer value)
-splicepenalty integer [20] Cost for an intron, independent of
length and starting/ending on donor-acceptor
sites (Any integer value)
-minscore integer [30] Exclude alignments with scores below
this threshold score. (Any integer value)
Advanced (Unprompted) qualifiers:
-reverse boolean Reverse the orientation of the EST sequence
-[no]usesplice boolean [Y] Use donor and acceptor splice sites. If
you want to ignore donor-acceptor sites then
set this to be false.
-mode menu [both] This determines the comparison mode.
The default value is 'both', in which case
both strands of the est are compared
assuming a forward gene direction (ie GT/AG
splice sites), and the best comparison
redone assuming a reversed (CT/AC) gene
splicing direction. The other allowed modes
are 'forward', when just the forward strand
is searched, and 'reverse', ditto for the
reverse strand. (Values: both (Both
strands); forward (Forward strand only);
reverse (Reverse strand only))
-[no]best boolean [Y] You can print out all comparisons
instead of just the best one by setting this
to be false.
-space float [10.0] For linear-space recursion. If
product of sequence lengths divided by 4
exceeds this then a divide-and-conquer
strategy is used to control the memory
requirements. In this way very long
sequences can be aligned.
If you have a machine with plenty of memory
you can raise this parameter (but do not
exceed the machine's physical RAM) (Any
numeric value)
-shuffle integer [0] Shuffle (Any integer value)
-seed integer [20825] Random number seed (Any integer
-align boolean Show the alignment. The alignment includes
the first and last 5 bases of each intron,
together with the intron width. The
direction of splicing is indicated by angle
brackets (forward or reverse) or ????
(unknown).
-width integer [50] Alignment width (Any integer value)
General qualifiers:
-help boolean Report command line options and exit. More
information on associated and general
qualifiers can be found with -help -verbose
実行方法
入力のEST配列とgenome.fasta、出力名を指定する。est2genomeとだけ叩くと、対話モードで実行できる。
est2genome est.fa genome.fa output.aln
- -[no] best boolean [Y] You can print out all comparisons
instead of just the best one by setting this
to be false.
出力
こちらの査読前論文で使われているが、ゲノム全長を使うとかなりの時間がかかるので注意。
引用
EMBOSS: the European Molecular Biology Open Software Suite.
Rice P, Longden I, Bleasby A
Trends Genet. 2000 Jun;16(6):276-7
関連