macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ウィルスゲノムのアノテーションを行う VIGOR

 

 遺伝子予測プログラムVIGOR(Viral Genome ORF Reader)は、2010年にJ.Craig Venter Instituteで開発され、感染症ゲノムシークエンシングセンターのプロジェクトでコロナウイルス、インフルエンザ、ライノウイルス、ロタウイルスの遺伝子コールに成功している。VIGORでは、カスタムのタンパク質データベースに対して配列類似性検索を行い、タンパク質のコーディング領域、開始コドン、停止コドン、その他の遺伝子の特徴を特定する。リボ核酸編集などの特徴は、配列類似性とシグネチャー残基に基づいて正確に同定される。VIGORは、遺伝子予測ファイル、相補DNAファイル、アラインメントファイル、遺伝子特徴量表ファイルの4つの出力ファイルを生成する。遺伝子特徴量表は、GenBankへの申請に使用することができる。VIGORは単一の入力:FASTA形式のウイルスゲノム配列を受け取る。VIGORは、麻疹ウイルス、おたふくかぜウイルス、風疹ウイルス、呼吸器感染症ウイルス、アルファウイルス、ベネズエラ脳炎ウイルス、ノロウイルス、メタニューモウイルス、黄熱病ウイルス、日本脳炎ウイルス、パラインフルエンザウイルス、仙台ウイルスの12種類のウイルスの遺伝子を予測するために拡張されている。VIGORは、リボ核酸編集、ストップコドンリーク、リボソームシャントなどの複雑な遺伝子の特徴を正確に検出する。いくつかのウイルスのmat_peptide開裂を正確に特定することは、VIGORの組み込み機能である。これらのウイルスの遺伝子予測は、GenBankの27〜240ゲノムからテストして評価されている。

 

インストール

mvnを使って導入した(JDK11)。

依存

  • ### Java 8 or above
  • Although VIGOR4 may work on other operating systems, it has only been tested in a linux environment.
  • VIGOR4 uses exonerate to generate its initial alignments.

Github

#依存のexonerateの導入
conda install -c bioconda exonerate

git clone https://github.com/JCVenterInstitute/VIGOR4.git
cd VIGOR4/
mvn -DskipTests clean package
unzip target/vigor-4.1.20201015-032846-7c6c78d.zip -d INSTALL_DIRECTORY
cd INSTALL_DIRECTORY/vigor-4.1.20201015-032846-7c6c78d/bin/

> ./vigor4 -h

$ ./vigor4 -h

usage: vigor4 -i inputfasta -o outputprefix [ -d refdb ]

 

named arguments:

  -h, --help             show this help message and exit

  -i <input fasta>, --input-fasta <input fasta>

                         path to fasta file of genomic sequences to be annotated.

  -o <output prefix>, --output-prefix <output prefix>

                         prefix for outputfile files, e.g. if the output prefix  is  /mydir/anno  VIGOR will create output files /mydir/anno.tbl, /mydir/anno.stats, etc. An

                         output prefix without a directory element will create the output files in the current working directory.

  -c MIN_COVERAGE, --min-coverage MIN_COVERAGE

                         minimum coverage of reference product (0-100) required to report a gene, by default coverage is ignored

  -P <parameter=value~~...~~parameter=value>, --parameter <parameter=value~~...~~parameter=value>

                         ~~ separated list of VIGOR parameters to override default values. Use --list-config-parameters to see settable parameters.

  -v, --verbose          verbose logging (default=terse)

  --list-config-parameters [{all,current}]

                         list available configuration parameters and exit. By  default  only  lists  description,  use  the  verbose  option before this option to list more

                         information

  --list-databases       list the names and other information about the found vigor compatible  databases.  Requires reference database path to be set either by passing the

                         --reference-database-path command line parameter or setting reference_database_path in the configuration file

  --version              print version information

  --config-file CONFIG_FILE

                         config file to use

  --reference-database-path REFERENCE_DATABASE_PATH

                         reference database path

  --virus-config VIRUSSPECIFICCONFIG

                         Path to virus specific configuration

  --virus-config-path VIRUSSPECIFICCONFIGPATH

                         Path to directory containing virus specific config files.

  --overwrite-output     overwrite existing output files if they exist

  --temporary-directory TEMPORARYDIRECTORY

                         Root directory to use for temporary directories

  --list-output-formats  list acceptable output formats and exit

 

reference database:

  -d <ref db>, --reference-database <ref db>

                         specify the reference database to be used

 

locus tag usage:

  -l, --no-locus-tags    do NOT use locus_tags in TBL file output (incompatible with -L)

  -L [<locus_tag_prefix>], --locus-tags [<locus_tag_prefix>]

                         USE locus_tags in TBL file output (incompatible with -l). If no prefix is provided, the prefix "vigor_" will be used.

 

Unimplemented/Ignored for backward compatibilty:

  -0, --circular         complete circular genome (allows gene to span origin). This feature is currently unimplemented

  -f {0,1,2}, --frameshift-sensitivity {0,1,2}

                         frameshift sensitivity, 0=ignore frameshifts, 1=normal (default), 2=sensitive. 

  -m, --ignore-reference-requirements

                         ignore reference match requirements (coverage/identity/similarity), sometimes useful  when  running  VIGOR  to evaluate raw contigs and rough draft

                         sequences

  -x <ref_id,...,ref_id>, --ignore-refID <ref_id,...,ref_id>

                         comma separated list of reference sequence IDs to ignore (useful when debugging a reference database). Not currently implemented

 

Outputs:

  outputprefix.rpt   - summary of program results

  outputprefix.cds   - fasta file of predicted CDSs

  outputprefix.pep   - fasta file of predicted proteins

  outputprefix.tbl   - predicted features in GenBank tbl format

  outputprefix.aln   - alignment of predicted protein to reference, and reference protein to genome

 

 

 実行方法

fastaとconfigファイルを指定する。また-dでウィルスの種類(GithubのREADME.md参照)を指定する。

vigor4 -i input.fna -o outputprefix -d flua --config-file vigor.ini
  •  -d    specify the reference database to be used

 

 

引用

VIGOR extended to annotate genomes for additional 12 different viruses

Shiliang Wang, Jaideep P Sundaram, Timothy B Stockwell

Nucleic Acids Res. 2012 Jul;40(Web Server issue):W186-92


VIGOR, an annotation program for small viral genomes
Jaideep P Sundaram, David Spiro

BMC Bioinformatics. 2010; 11: 451