翻訳された遺伝子のマッチングを迅速に同定、分類、アノテーションするためのツール GAMMA

　参照データベースを用いて微生物配列の遺伝子を同定するために用いられるツールは、一般に一致度をパーセントで報告するが、配列同一性が100％未満の場合、特定のアミノ酸の変化が基質結合領域や酵素活性部位で起こる場合など、タンパク質の機能に劇的な影響を与え、それが抗菌性あるいは病原性といった表現型に劇的な影響を与えることがあるため、解釈が難しい場合がある。

　GAMMAは、タンパク質のコードレベルの同一性を利用して、あらゆる遺伝子データベースから遺伝子を呼び出し、その呼び出しに対して分類（例：変異、切断）と翻訳アノテーション（例：Y190S変異、残基110での切断）を生成するオープンソースのツールである。GAMMAは、他の3つのツールよりも速く、大規模なゲノムセットから抗菌剤耐性遺伝子を正確にコールした。また、同じゲノムセットから病原性遺伝子を同定することで実証したように、あらゆる遺伝子データベースと併用することが可能である。GAMMAはその速度と柔軟性から、微生物のシーケンスデータから興味のあるあらゆる遺伝子のマッチングを迅速に見つけ、アノテーションするために使用することができる。

インストール

Github

#conda (link)
mamba create -n GAMMA -y
conda activate GAMMA
mamba install -c bioconda gamma -y

> GAMMA.py -h

usage: GAMMA.py [-h] [-a] [-e] [-f] [-g] [-i PERCENT_IDENTITY]

input_fasta database output

This scripts makes annotated gene calls from matches in an assembly using a

gene database

positional arguments:

input_fasta input fasta

database input database

output output name

optional arguments:

-h, --help show this help message and exit

-a, --all include all gene matches, even overlaps

-e, --extended writes out all protein mutations

-f, --fasta write fasta of gene matches

-g, --gff write gene matches as gff file

-i PERCENT_IDENTITY, --percent_identity PERCENT_IDENTITY

minimum nucleotide identity for blat search (default = 90)

実行方法

ランするにはfasta形式のゲノムアセンブリと遺伝子のコーディング配列のmultifastaデータベースが必要。コーディング配列のデータベースとして、GAMMAのレポジトリのResFinderDBデータベース（2020年5月6日にダウンロードされたResFinder AR遺伝子データベース）を指定している。

git clone https://github.com/rastanton/GAMMA.git
GAMMA.py assembly.fasta GAMMA/ResFinderDB_Combined_05-06-20.fsa output -f -g -i 90

-a include all gene matches, even overlaps
-e writes out all protein mutations
-f write fasta of gene matches
-g write gene matches as gff file
-i minimum nucleotide identity for blat search (default = 90)

GAMMA のデフォルト出力は、15 カラムのタブ区切りファイルとなる。

> head output.gamma

f:id:kazumaxneo:20211223001948p:plain

詳細はレポジトリの解説を参照して下さい。

引用

GAMMA: a tool for the rapid identification, classification, and annotation of translated gene matches from sequencing data
Richard A Stanton, Nicholas Vlachos, Alison Laufer Halpin

Bioinformatics. 2021 Aug 20;btab607