計算機による遺伝子予測は、特に実験データの少ないゲノムに対して重要な問題であり続けている。様々なゲノムに容易に適応できるように設計されたSNAP遺伝子検出器を紹介する。また、SNAP遺伝子検出器のパラメータは、系統的に最も近いゲノムのパラメータとは限らないことを示した。また、ブートストラップパラメータ推定では、外来遺伝子探索がより有効であり、その結果得られるパラメータは非常に正確であることがわかった。
遺伝子予測は種特異的なパラメータに敏感であるため、すべてのゲノムに専用のgene finderが必要である。
HP
Documentation
http://korflab.ucdavis.edu/software.html
Githubより
SNAPは、真核生物および原核生物ゲノムの両方に適した汎用遺伝子探索プログラムである。SNAPはSemi-HMM-based Nucleic Acid Parserの頭文字をとったものである。
インストール
https://github.com/KorfLab/SNAP
git clone https://github.com/KorfLab/SNAP.git
cd SNAP/
make
#conda(link)
mamba install -c bioconda snap
> ./snap
$ ./snap
SNAP - Semi-HMM-based Nucleic Acid Parser (version 2006-07-28)
usage: snap [options] <HMM file> <FASTA file> [options]
options:
-help report useful information
-lcmask treat lowercase as N
-plus predict on plus strand only
-minus predict on minus strand only
-gff output annotation as GFF
-ace output annotation as ACED
-quiet do not send progress to STDERR
-aa <file> create FASTA file of proteins
-tx <file> create FASTA file of transcripts
-xdef <file> external definitions
-name <string> name for the gene [default snap]
> ./fathom
FATHOM - sequence and annotation tool (version 2006-07-28)
usage: fathom <ann> <dna> <commands>
commands:
-help report useful information
-validate [-quiet]
-gene-stats [-errors-ok -nucleotide -dinucleotide]
-categorize <int>
-export <int> [-plus -errors-ok]
-extract <feature> -length <int> -offset <int>
-exon-intron
-split <-number <int> | -training <float> | -GC <float> | -repeat <float>>
-ace-format <-gene-method <string> [-dna -extra <string>]>
-compare-genes <predictions> [-details]
-score-genes <hmm> [-errors-ok]
-filter-genes <hmm> -min-score <float> -min-length <int>
テストラン
./snap HMM/thale DNA/thale.dna.gz
./snap HMM/worm DNA/worm.dna.gz
> ./snap HMM/thale DNA/thale.dna.gz
HMM/には代表的な生物種のHMMモデルファイルが含まれている。それでは遺伝子予測精度に問題があるならレポジトリのチュートリアルの手順を踏んで訓練しないといけない(gff3_to_zff.plを使ってZFFという形式に変換し、続いてfathomの一連のコマンドとhmm-assembler.plを走らせて3 種類のゲノムの SNAP HMM ファイルを作成する)*1。
実行方法
モデルのHMMファイルとゲノムのfastaファイルを指定する。
./snap -gff -aa output_protein.faa -tx output_cds.fna HMM/At.HMM input_genome.fna > output.gff
- -plus predict on plus strand only
- -minus predict on minus strand only
- -gff output annotation as GFF
- -ace output annotation as ACED
- -quiet do not send progress to STDERR
- -aa <file> create FASTA file of proteins
- -tx <file> create FASTA file of transcripts
makerのチュートリアルで紹介されているように複数回訓練させることで遺伝子予測性能は大きく向上する。
引用
Gene finding in novel genomes
Ian Korf
BMC Bioinformatics volume 5, Article number: 59 (2004)
*1
もしくはこのHPのような手順を踏む必要がある。