macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

機能的な重複遺伝子を予測する OLGenie

 

 タンパク質をコードする遺伝子では、部位ごとの非同義置換と同義置換の比(dN/dS)を用いて検出することが可能である。しかし、2つの遺伝子が異なるフレームで同じ塩基部位に重なる場合、一方の遺伝子の同義変化が他方では非同義性変化となり、dN/dSが乱される可能性がある。そのため、オーバーラップする遺伝子(OLG)に特化した機能制約を推定するスケーラブルな手法が必要とされている。著者らは、Wei-Zhang法を改良したOLGenieを提案する。ウイルスゲノムのシミュレーションとコントロール(OLG58個、非OLG176個)を用いて評価した結果、偽陽性率が低く、真のOLGと非OLGを区別する能力が高いことが実証された。また、HIV-1のアンチセンスタンパク質遺伝子とされる未解決のケースにOLGenieを適用し、有意な純化選択を示した。OLGenieは、既知のOLGの研究や、ゲノムアノテーションにおける新しいOLGの予測に使用することができる。ソフトウェアとサンプルデータは https://github.com/chasewnelson/OLGenie で自由に利用できる。

 

インストール

Perlで書かれている。移植性を高めるために依存関係はない。

git clone https://github.com/chasewnelson/OLGenie.git
cd OLGenie/

> perl OLGenie.pl

$ perl OLGenie.pl 

 

 

################################################################################

### OLGenie for analysis of selection in overlapping genes using member pairs.

################################################################################

 

 

################################################################################

### OPTIONS:

################################################################################

 

--fasta_file (REQUIRED): a FASTA file containing multiple aligned sequences of one coding sequence.

The entire coding sequence must be an overlapping gene (OLG), with no non-overlapping codons.

The frame must be the frame of the reference gene (ORF1). (See the --frame option.)

 

--frame (REQUIRED): the frame of the overlapping gene (OLG) relationship: ss12, ss13, sas11, sas12, or sas13:

 

SENSE-SENSE:

ss12:

ORF1: 1-2-3-1-2-3-1

ORF2: 2-3-1-2-3-1-2

ss13:

ORF1: 1-2-3-1-2-3-1

ORF2: 3-1-2-3-1-2-3

 

  SENSE-ANTISENSE:

sas11:

ORF1: 1-2-3-1-2-3-1

ORF2: 1-3-2-1-3-2-1

sas12:

ORF1: 1-2-3-1-2-3-1

ORF2: 2-1-3-2-1-3-2

sas13:

ORF1: 1-2-3-1-2-3-1

ORF2: 3-2-1-3-2-1-3

 

 

--output_file (OPTIONAL): name of the TAB-delimited output file to be placed in the working directory

unless a full path name is given. If not specified, a file will be printed in the working directory

by the name OLGenie_codon_results.txt (DEFAULT).

 

--verbose (OPTIONAL): tell OLGenie to report all unique nonamers (9-mers) overlapping each reference

codon, along with their counts, in the output file. May lead to large output files in cases with

many and/or divergent sequences.

 

 

################################################################################

### EXAMPLE:

################################################################################

 

$ OLGenie.pl --fasta_file=my_alignment.fasta --frame=ss13 --output_file=OLGenie_codon_results.txt --verbose

 

################################################################################

 

 

 

実行方法

タンパク質コード遺伝子領域のFASTAを提供する。アライメントが参照遺伝子の観点から調査される。

cd OLGenie/EXAMPLE_INPUT/
perl ../OLGenie.pl --fasta_file=HIV1_env_BLAST.fa --frame=sas12 > example1.out
  •  --fasta_file    a FASTA file containing multiple aligned sequences of one coding sequence. The entire coding sequence must be an overlapping gene (OLG), with no non-overlapping codons.  The frame must be the frame of the reference gene (ORF1). (See the --frame option.)

  • --frame    the frame of the overlapping gene (OLG) relationship: ss12, ss13, sas11, sas12, or sas13

  • --output_file     name of the TAB-delimited output file to be placed in the working directory. unless a full path name is given. If not specified, a file will be printed in the working directory  by the name OLGenie_codon_results.txt (DEFAULT).

  • --verbose     tell OLGenie to report all unique nonamers (9-mers) overlapping each reference. codon along with their counts, in the output file. May lead to large output files in cases with many and/or divergent sequences.

> cat example1.out

 

2,ブートストラップによる有意性の検証

OLGenie_bootstrap.R OLGenie_codon_results_ex1.txt 2 1000 4 > example3.out

 

出力についてはレポジトリで説明されています。確認して下さい。

引用

OLGenie: Estimating Natural Selection to Predict Functional Overlapping Genes 
Chase W Nelson, Zachary Ardern, Xinzhu Wei
Molecular Biology and Evolution, Volume 37, Issue 8, August 2020, Pages 2440–2449

Mol Biol Evol. 2020 Aug 1;37(8):2440-2449

 

重複遺伝子とオーバープリント遺伝子については以下の論文を中心に調べました。アンチセンス発現とは明確に異なることが分かります。

Spotlight on alternative frame coding: Two long overlapping genes in Pseudomonas aeruginosa are translated and under purifying selection
Michaela Kreitmeier, Zachary Ardern, Miriam Abele, Christina Ludwig, Siegfried Scherer, Klaus Neuhaus