メタゲノムに含まれるタンパク質遺伝子を正確に予測することは、よく知られた課題である。特に、短い遺伝子や不完全な遺伝子、翻訳開始部位の位置を特定することは困難である。原核生物の翻訳開始は、5'UTRに存在するShine-Dalgarno(SD)コンセンサス配列であるリボソーム結合部位(RBS)により制御されていると考えられていることが多い。しかし、原核生物ゲノムのRefSeqコレクションに含まれる5,007個のゲノムのうち約30%は、非SD RBS配列を持つか、5' UTRが物理的に存在しないためRBSサイトを持たない(リーダーレス転写の場合)。遺伝子の3'末端の予測はより正確であるが、それでも間違った遺伝暗号の使用によりエラーが発生する可能性がある。そのため、配列解析の過程で真の遺伝暗号を同定することが、効果的な遺伝子探索アルゴリズムとなる。本研究では、リーダーレス転写に関与するプロモーター配列と同様に、RBS配列のGC含量に依存した生成関数を推論することにより、遺伝子開始の予測を向上させた。また、原核生物で唯一知られている TGA 停止コドンの再割り当てにより定義される代替遺伝暗号を同定する機能 も追加した。MetaGeneMark-2は、メタゲノム配列において、既存のいくつかの最先端ツールよりも正確な遺伝子予測を行うことが実証された。
インストール
ubuntuでビルドした。
git clone https://github.com/gatech-genemark/MetaGeneMark-2.git
cd MetaGeneMark-2/src
#Makefile.aws, Makefile.macos, Makefile.topaz, Makefile.ubuntuから選ぶ。
pf_makefile=Makefile.macos
make -f $pf_makefile
> ./gmhmmp2
GeneMark.hmm-2 version 1.23
Usage: ./gmhmmp2 --option value
Input:
-s [ --seq ] arg Name of file with sequence/s
Output:
-o [ --out ] arg Output file
-f [ --format ] arg (=lst) Output format; supported: lst, gff, gtf, gff3,
train and ext
Plus:
-e [ --evi ] arg File with evidence data in GFF format for PLUS
prediction algorithm
Algorithm parameters:
-m [ --mod ] arg File with species specific parameters
-M [ --Meta ] arg File with MetaGeneMark parameters
Other options:
-h [ --help ] Full help message
-v [ --verbose ] Verbose
> perl run_mgm.pl
# -------------------
Usage: run_mgm.pl --seq [name] --out [name]
Required options:
--seq [name]
nucleotide sequence of metagenome in FASTA format.
--out [name]
output file with coordinates of predicted protein coding genes.
Output options:
--nt [name]
output file with nucleotide sequences of predicted genes in FASTA format.
--aa [name]
output file with protein sequences of predicted genes in FASTA format.
--format [gtf]
format of output file with gene coordinates: gtf or gff3.
--clean
delete temporay files
Other parameters:
--verbose
Developer options:
--tmpf [name]
folder name for temporary files
--debug
Version 1.00
# -------------------
実行方法
MetaGeneMark-2を遺伝暗号自動検出機能付きで実行するには、run_mgm.plを使う。
perl run_mgm.pl --seq MAG.fasta --format gtf --out output
- --seq nucleotide sequence of metagenome in FASTA format.
- --out output file with coordinates of predicted protein coding genes.
- --format format of output file with gene coordinates: gtf or gff3.
- --nt output file with nucleotide sequences of predicted genes in FASTA format.
- --aa output file with protein sequences of predicted genes in FASTA format.
- --clean delete temporay files
出力例
引用
MetaGeneMark-2: Improved Gene Prediction in Metagenomes
Karl Gemayel, Alexandre Lomsadze, Mark Borodovsky
bioRxiv, Posted July 27, 2022.
関連