macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムにおける遺伝子予測精度を向上させた MetaGeneMark-2

 

 メタゲノムに含まれるタンパク質遺伝子を正確に予測することは、よく知られた課題である。特に、短い遺伝子や不完全な遺伝子、翻訳開始部位の位置を特定することは困難である。原核生物の翻訳開始は、5'UTRに存在するShine-Dalgarno(SD)コンセンサス配列であるリボソーム結合部位(RBS)により制御されていると考えられていることが多い。しかし、原核生物ゲノムのRefSeqコレクションに含まれる5,007個のゲノムのうち約30%は、非SD RBS配列を持つか、5' UTRが物理的に存在しないためRBSサイトを持たない(リーダーレス転写の場合)。遺伝子の3'末端の予測はより正確であるが、それでも間違った遺伝暗号の使用によりエラーが発生する可能性がある。そのため、配列解析の過程で真の遺伝暗号を同定することが、効果的な遺伝子探索アルゴリズムとなる。本研究では、リーダーレス転写に関与するプロモーター配列と同様に、RBS配列のGC含量に依存した生成関数を推論することにより、遺伝子開始の予測を向上させた。また、原核生物で唯一知られている TGA 停止コドンの再割り当てにより定義される代替遺伝暗号を同定する機能 も追加した。MetaGeneMark-2は、メタゲノム配列において、既存のいくつかの最先端ツールよりも正確な遺伝子予測を行うことが実証された。

 

インストール

ubuntuでビルドした。

Github

git clone https://github.com/gatech-genemark/MetaGeneMark-2.git
cd MetaGeneMark-2/src
#Makefile.aws, Makefile.macos, Makefile.topaz, Makefile.ubuntuから選ぶ。
pf_makefile=Makefile.macos
make -f $pf_makefile

> ./gmhmmp2 

GeneMark.hmm-2 version 1.23

Usage: ./gmhmmp2 --option value

 

Input:

  -s [ --seq ] arg            Name of file with sequence/s

 

Output:

  -o [ --out ] arg            Output file

  -f [ --format ] arg (=lst)  Output format; supported: lst, gff, gtf, gff3, 

                              train and ext

 

Plus:

  -e [ --evi ] arg            File with evidence data in GFF format for PLUS 

                              prediction algorithm

 

Algorithm parameters:

  -m [ --mod ] arg            File with species specific parameters

  -M [ --Meta ] arg           File with MetaGeneMark parameters

 

Other options:

  -h [ --help ]               Full help message

  -v [ --verbose ]            Verbose

 

perl run_mgm.pl 

# -------------------

Usage:  run_mgm.pl  --seq [name]  --out [name]

 

Required options:

 

  --seq  [name]

     nucleotide sequence of metagenome in FASTA format.

  --out  [name]

     output file with coordinates of predicted protein coding genes.

 

Output options:

 

  --nt  [name]

     output file with nucleotide sequences of predicted genes in FASTA format.

  --aa  [name]

     output file with protein sequences of predicted genes in FASTA format.

  --format  [gtf]

     format of output file with gene coordinates: gtf or gff3.

  --clean

     delete temporay files

 

Other parameters:

  --verbose

Developer options:

  --tmpf  [name]

     folder name for temporary files

  --debug

 

Version  1.00

# -------------------

 

 

実行方法

MetaGeneMark-2を遺伝暗号自動検出機能付きで実行するには、run_mgm.plを使う。

perl run_mgm.pl --seq MAG.fasta --format gtf --out output
  • --seq    nucleotide sequence of metagenome in FASTA format.
  • --out     output file with coordinates of predicted protein coding genes.
  • --format     format of output file with gene coordinates: gtf or gff3.
  • --nt    output file with nucleotide sequences of predicted genes in FASTA format.
  • --aa    output file with protein sequences of predicted genes in FASTA format.
  • --clean    delete temporay files

出力例

 

引用

MetaGeneMark-2: Improved Gene Prediction in Metagenomes
Karl Gemayel, Alexandre Lomsadze, Mark Borodovsky

bioRxiv, Posted July 27, 2022.

 

関連