遺伝子予測プログラムVIGOR(Viral Genome ORF Reader)は、2010年にJ.Craig Venter Instituteで開発され、感染症ゲノムシークエンシングセンターのプロジェクトでコロナウイルス、インフルエンザ、ライノウイルス、ロタウイルスの遺伝子コールに成功している。VIGORでは、カスタムのタンパク質データベースに対して配列類似性検索を行い、タンパク質のコーディング領域、開始コドン、停止コドン、その他の遺伝子の特徴を特定する。リボ核酸編集などの特徴は、配列類似性とシグネチャー残基に基づいて正確に同定される。VIGORは、遺伝子予測ファイル、相補DNAファイル、アラインメントファイル、遺伝子特徴量表ファイルの4つの出力ファイルを生成する。遺伝子特徴量表は、GenBankへの申請に使用することができる。VIGORは単一の入力:FASTA形式のウイルスゲノム配列を受け取る。VIGORは、麻疹ウイルス、おたふくかぜウイルス、風疹ウイルス、呼吸器感染症ウイルス、アルファウイルス、ベネズエラ馬脳炎ウイルス、ノロウイルス、メタニューモウイルス、黄熱病ウイルス、日本脳炎ウイルス、パラインフルエンザウイルス、仙台ウイルスの12種類のウイルスの遺伝子を予測するために拡張されている。VIGORは、リボ核酸編集、ストップコドンリーク、リボソームシャントなどの複雑な遺伝子の特徴を正確に検出する。いくつかのウイルスのmat_peptide開裂を正確に特定することは、VIGORの組み込み機能である。これらのウイルスの遺伝子予測は、GenBankの27〜240ゲノムからテストして評価されている。
インストール
mvnを使って導入した(JDK11)。
依存
- ### Java 8 or above
- Although VIGOR4 may work on other operating systems, it has only been tested in a linux environment.
- VIGOR4 uses exonerate to generate its initial alignments.
#依存のexonerateの導入
conda install -c bioconda exonerate
git clone https://github.com/JCVenterInstitute/VIGOR4.git
cd VIGOR4/
mvn -DskipTests clean package
unzip target/vigor-4.1.20201015-032846-7c6c78d.zip -d INSTALL_DIRECTORY
cd INSTALL_DIRECTORY/vigor-4.1.20201015-032846-7c6c78d/bin/
> ./vigor4 -h
$ ./vigor4 -h
usage: vigor4 -i inputfasta -o outputprefix [ -d refdb ]
named arguments:
-h, --help show this help message and exit
-i <input fasta>, --input-fasta <input fasta>
path to fasta file of genomic sequences to be annotated.
-o <output prefix>, --output-prefix <output prefix>
prefix for outputfile files, e.g. if the output prefix is /mydir/anno VIGOR will create output files /mydir/anno.tbl, /mydir/anno.stats, etc. An
output prefix without a directory element will create the output files in the current working directory.
-c MIN_COVERAGE, --min-coverage MIN_COVERAGE
minimum coverage of reference product (0-100) required to report a gene, by default coverage is ignored
-P <parameter=value~~...~~parameter=value>, --parameter <parameter=value~~...~~parameter=value>
~~ separated list of VIGOR parameters to override default values. Use --list-config-parameters to see settable parameters.
-v, --verbose verbose logging (default=terse)
--list-config-parameters [{all,current}]
list available configuration parameters and exit. By default only lists description, use the verbose option before this option to list more
information
--list-databases list the names and other information about the found vigor compatible databases. Requires reference database path to be set either by passing the
--reference-database-path command line parameter or setting reference_database_path in the configuration file
--version print version information
--config-file CONFIG_FILE
config file to use
--reference-database-path REFERENCE_DATABASE_PATH
reference database path
--virus-config VIRUSSPECIFICCONFIG
Path to virus specific configuration
--virus-config-path VIRUSSPECIFICCONFIGPATH
Path to directory containing virus specific config files.
--overwrite-output overwrite existing output files if they exist
--temporary-directory TEMPORARYDIRECTORY
Root directory to use for temporary directories
--list-output-formats list acceptable output formats and exit
reference database:
-d <ref db>, --reference-database <ref db>
specify the reference database to be used
locus tag usage:
-l, --no-locus-tags do NOT use locus_tags in TBL file output (incompatible with -L)
-L [<locus_tag_prefix>], --locus-tags [<locus_tag_prefix>]
USE locus_tags in TBL file output (incompatible with -l). If no prefix is provided, the prefix "vigor_" will be used.
Unimplemented/Ignored for backward compatibilty:
-0, --circular complete circular genome (allows gene to span origin). This feature is currently unimplemented
-f {0,1,2}, --frameshift-sensitivity {0,1,2}
frameshift sensitivity, 0=ignore frameshifts, 1=normal (default), 2=sensitive.
-m, --ignore-reference-requirements
ignore reference match requirements (coverage/identity/similarity), sometimes useful when running VIGOR to evaluate raw contigs and rough draft
sequences
-x <ref_id,...,ref_id>, --ignore-refID <ref_id,...,ref_id>
comma separated list of reference sequence IDs to ignore (useful when debugging a reference database). Not currently implemented
Outputs:
outputprefix.rpt - summary of program results
outputprefix.cds - fasta file of predicted CDSs
outputprefix.pep - fasta file of predicted proteins
outputprefix.tbl - predicted features in GenBank tbl format
outputprefix.aln - alignment of predicted protein to reference, and reference protein to genome
実行方法
fastaとconfigファイルを指定する。また-dでウィルスの種類(GithubのREADME.md参照)を指定する。
vigor4 -i input.fna -o outputprefix -d flua --config-file vigor.ini
- -d specify the reference database to be used
引用
VIGOR extended to annotate genomes for additional 12 different viruses
Shiliang Wang, Jaideep P Sundaram, Timothy B Stockwell
Nucleic Acids Res. 2012 Jul;40(Web Server issue):W186-92
VIGOR, an annotation program for small viral genomes
Jaideep P Sundaram, David Spiro
BMC Bioinformatics. 2010; 11: 451