macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

翻訳された遺伝子のマッチングを迅速に同定、分類、アノテーションするためのツール GAMMA

 

 参照データベースを用いて微生物配列の遺伝子を同定するために用いられるツールは、一般に一致度をパーセントで報告するが、配列同一性が100%未満の場合、特定のアミノ酸の変化が基質結合領域や酵素活性部位で起こる場合など、タンパク質の機能に劇的な影響を与え、それが抗菌性あるいは病原性といった表現型に劇的な影響を与えることがあるため、解釈が難しい場合がある。

 GAMMAは、タンパク質のコードレベルの同一性を利用して、あらゆる遺伝子データベースから遺伝子を呼び出し、その呼び出しに対して分類(例:変異、切断)と翻訳アノテーション(例:Y190S変異、残基110での切断)を生成するオープンソースのツールである。GAMMAは、他の3つのツールよりも速く、大規模なゲノムセットから抗菌剤耐性遺伝子を正確にコールした。また、同じゲノムセットから病原性遺伝子を同定することで実証したように、あらゆる遺伝子データベースと併用することが可能である。GAMMAはその速度と柔軟性から、微生物のシーケンスデータから興味のあるあらゆる遺伝子のマッチングを迅速に見つけ、アノテーションするために使用することができる。

 

インストール

Github

#conda (link)
mamba create -n GAMMA -y
conda activate GAMMA
mamba install -c bioconda gamma -y

> GAMMA.py -h

usage: GAMMA.py [-h] [-a] [-e] [-f] [-g] [-i PERCENT_IDENTITY]

                input_fasta database output

 

This scripts makes annotated gene calls from matches in an assembly using a

gene database

 

positional arguments:

  input_fasta           input fasta

  database              input database

  output                output name

 

optional arguments:

  -h, --help            show this help message and exit

  -a, --all             include all gene matches, even overlaps

  -e, --extended        writes out all protein mutations

  -f, --fasta           write fasta of gene matches

  -g, --gff             write gene matches as gff file

  -i PERCENT_IDENTITY, --percent_identity PERCENT_IDENTITY

                        minimum nucleotide identity for blat search (default = 90)

 

 

実行方法

ランするにはfasta形式のゲノムアセンブリと遺伝子のコーディング配列のmultifastaデータベースが必要。コーディング配列のデータベースとして、GAMMAのレポジトリのResFinderDBデータベース(2020年5月6日にダウンロードされたResFinder AR遺伝子データベース)を指定している。

git clone https://github.com/rastanton/GAMMA.git
GAMMA.py assembly.fasta GAMMA/ResFinderDB_Combined_05-06-20.fsa output -f -g -i 90
  • -a    include all gene matches, even overlaps
  • -e    writes out all protein mutations
  • -f     write fasta of gene matches
  • -g    write gene matches as gff file
  • -i     minimum nucleotide identity for blat search (default = 90) 

GAMMA のデフォルト出力は、15 カラムのタブ区切りファイルとなる。

> head output.gamma

f:id:kazumaxneo:20211223001948p:plain

詳細はレポジトリの解説を参照して下さい。

引用

GAMMA: a tool for the rapid identification, classification, and annotation of translated gene matches from sequencing data
Richard A Stanton, Nicholas Vlachos, Alison Laufer Halpin

Bioinformatics. 2021 Aug 20;btab607

 

関連