macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Ab initio遺伝子予測器 SNAP

 

計算機による遺伝子予測は、特に実験データの少ないゲノムに対して重要な問題であり続けている。様々なゲノムに容易に適応できるように設計されたSNAP遺伝子検出器を紹介する。また、SNAP遺伝子検出器のパラメータは、系統的に最も近いゲノムのパラメータとは限らないことを示した。また、ブートストラップパラメータ推定では、外来遺伝子探索がより有効であり、その結果得られるパラメータは非常に正確であることがわかった。

遺伝子予測は種特異的なパラメータに敏感であるため、すべてのゲノムに専用のgene finderが必要である。

 

HP

https://korflab.github.io/

Documentation

http://korflab.ucdavis.edu/software.html

 

Githubより

SNAPは、真核生物および原核生物ゲノムの両方に適した汎用遺伝子探索プログラムである。SNAPはSemi-HMM-based Nucleic Acid Parserの頭文字をとったものである。

インストール

Github

https://github.com/KorfLab/SNAP

git clone https://github.com/KorfLab/SNAP.git
cd SNAP/
make

#conda(link)
mamba install -c bioconda snap

./snap

$ ./snap 

 

SNAP - Semi-HMM-based Nucleic Acid Parser (version 2006-07-28)

 

usage: snap [options] <HMM file> <FASTA file> [options]

options:

  -help           report useful information

  -lcmask         treat lowercase as N

  -plus           predict on plus strand only

  -minus          predict on minus strand only

  -gff            output annotation as GFF

  -ace            output annotation as ACED

  -quiet          do not send progress to STDERR

  -aa <file>      create FASTA file of proteins

  -tx <file>      create FASTA file of transcripts

  -xdef <file>    external definitions

  -name <string>  name for the gene [default snap]

> ./fathom 

 

FATHOM - sequence and annotation tool (version 2006-07-28)

 

usage: fathom <ann> <dna> <commands>

commands:

  -help           report useful information

  -validate [-quiet]

  -gene-stats [-errors-ok -nucleotide -dinucleotide]

  -categorize <int>

  -export <int> [-plus -errors-ok]

  -extract <feature> -length <int> -offset <int>

  -exon-intron

  -split <-number <int> | -training <float> | -GC <float> | -repeat <float>>

  -ace-format <-gene-method <string> [-dna -extra <string>]>

  -compare-genes <predictions> [-details]

  -score-genes <hmm> [-errors-ok]

  -filter-genes <hmm> -min-score <float> -min-length <int>

 

 

テストラン

./snap HMM/thale DNA/thale.dna.gz
./snap HMM/worm DNA/worm.dna.gz

> ./snap HMM/thale DNA/thale.dna.gz

 

HMM/には代表的な生物種のHMMモデルファイルが含まれている。それでは遺伝子予測精度に問題があるならレポジトリのチュートリアルの手順を踏んで訓練しないといけない(gff3_to_zff.plを使ってZFFという形式に変換し、続いてfathomの一連のコマンドとhmm-assembler.plを走らせて3 種類のゲノムの SNAP HMM ファイルを作成する)*1。

 

 

実行方法

モデルのHMMファイルとゲノムのfastaファイルを指定する。

./snap -gff -aa output_protein.faa -tx output_cds.fna HMM/At.HMM input_genome.fna > output.gff
  • -plus         predict on plus strand only 
  • -minus     predict on minus strand only
  • -gff           output annotation as GFF
  • -ace          output annotation as ACED
  • -quiet        do not send progress to STDERR
  • -aa <file>  create FASTA file of proteins
  • -tx <file>   create FASTA file of transcripts 

 

makerのチュートリアルで紹介されているように複数回訓練させることで遺伝子予測性能は大きく向上する。

引用

Gene finding in novel genomes

Ian Korf 
BMC Bioinformatics volume 5, Article number: 59 (2004) 

 

*1

もしくはこのHPのような手順を踏む必要がある。