タンパク質をコードする遺伝子では、部位ごとの非同義置換と同義置換の比(dN/dS)を用いて検出することが可能である。しかし、2つの遺伝子が異なるフレームで同じ塩基部位に重なる場合、一方の遺伝子の同義性変化が他方では非同義性変化となり、dN/dSが乱される可能性がある。そのため、オーバーラップする遺伝子(OLG)に特化した機能制約を推定するスケーラブルな手法が必要とされている。著者らは、Wei-Zhang法を改良したOLGenieを提案する。ウイルスゲノムのシミュレーションとコントロール(OLG58個、非OLG176個)を用いて評価した結果、偽陽性率が低く、真のOLGと非OLGを区別する能力が高いことが実証された。また、HIV-1のアンチセンスタンパク質遺伝子とされる未解決のケースにOLGenieを適用し、有意な純化選択を示した。OLGenieは、既知のOLGの研究や、ゲノムアノテーションにおける新しいOLGの予測に使用することができる。ソフトウェアとサンプルデータは https://github.com/chasewnelson/OLGenie で自由に利用できる。
インストール
Perlで書かれている。移植性を高めるために依存関係はない。
git clone https://github.com/chasewnelson/OLGenie.git
cd OLGenie/
> perl OLGenie.pl
$ perl OLGenie.pl
################################################################################
### OLGenie for analysis of selection in overlapping genes using member pairs.
################################################################################
################################################################################
### OPTIONS:
################################################################################
--fasta_file (REQUIRED): a FASTA file containing multiple aligned sequences of one coding sequence.
The entire coding sequence must be an overlapping gene (OLG), with no non-overlapping codons.
The frame must be the frame of the reference gene (ORF1). (See the --frame option.)
--frame (REQUIRED): the frame of the overlapping gene (OLG) relationship: ss12, ss13, sas11, sas12, or sas13:
SENSE-SENSE:
ss12:
ORF1: 1-2-3-1-2-3-1
ORF2: 2-3-1-2-3-1-2
ss13:
ORF1: 1-2-3-1-2-3-1
ORF2: 3-1-2-3-1-2-3
SENSE-ANTISENSE:
sas11:
ORF1: 1-2-3-1-2-3-1
ORF2: 1-3-2-1-3-2-1
sas12:
ORF1: 1-2-3-1-2-3-1
ORF2: 2-1-3-2-1-3-2
sas13:
ORF1: 1-2-3-1-2-3-1
ORF2: 3-2-1-3-2-1-3
--output_file (OPTIONAL): name of the TAB-delimited output file to be placed in the working directory
unless a full path name is given. If not specified, a file will be printed in the working directory
by the name OLGenie_codon_results.txt (DEFAULT).
--verbose (OPTIONAL): tell OLGenie to report all unique nonamers (9-mers) overlapping each reference
codon, along with their counts, in the output file. May lead to large output files in cases with
many and/or divergent sequences.
################################################################################
### EXAMPLE:
################################################################################
$ OLGenie.pl --fasta_file=my_alignment.fasta --frame=ss13 --output_file=OLGenie_codon_results.txt --verbose
################################################################################
実行方法
タンパク質コード遺伝子領域のFASTAを提供する。アライメントが参照遺伝子の観点から調査される。
cd OLGenie/EXAMPLE_INPUT/
perl ../OLGenie.pl --fasta_file=HIV1_env_BLAST.fa --frame=sas12 > example1.out
-
--fasta_file a FASTA file containing multiple aligned sequences of one coding sequence. The entire coding sequence must be an overlapping gene (OLG), with no non-overlapping codons. The frame must be the frame of the reference gene (ORF1). (See the --frame option.)
-
--frame the frame of the overlapping gene (OLG) relationship: ss12, ss13, sas11, sas12, or sas13
-
--output_file name of the TAB-delimited output file to be placed in the working directory. unless a full path name is given. If not specified, a file will be printed in the working directory by the name OLGenie_codon_results.txt (DEFAULT).
-
--verbose tell OLGenie to report all unique nonamers (9-mers) overlapping each reference. codon along with their counts, in the output file. May lead to large output files in cases with many and/or divergent sequences.
> cat example1.out
2,ブートストラップによる有意性の検証
OLGenie_bootstrap.R OLGenie_codon_results_ex1.txt 2 1000 4 > example3.out
出力についてはレポジトリで説明されています。確認して下さい。
引用
OLGenie: Estimating Natural Selection to Predict Functional Overlapping Genes
Chase W Nelson, Zachary Ardern, Xinzhu Wei
Molecular Biology and Evolution, Volume 37, Issue 8, August 2020, Pages 2440–2449
Mol Biol Evol. 2020 Aug 1;37(8):2440-2449
重複遺伝子とオーバープリント遺伝子については以下の論文を中心に調べました。アンチセンス発現とは明確に異なることが分かります。
Spotlight on alternative frame coding: Two long overlapping genes in Pseudomonas aeruginosa are translated and under purifying selection
Michaela Kreitmeier, Zachary Ardern, Miriam Abele, Christina Ludwig, Siegfried Scherer, Klaus Neuhaus