ゲノムアノテーションにおけるタンパク質コード配列の正確性を評価することは困難な問題であり、広く適用できる解決策がない。この原稿では、タンパク質コード遺伝子アノテーションの品質評価を支援するために開発された新しいソフトウェアツール、PSAURON(Protein Sequence Assessment Using a Reference ORF Network)を紹介する。PSAURONは、1000を超える動植物ゲノムの多様なデータセットで学習させた機械学習モデルを利用し、コーディングDNAまたはタンパク質配列に、その配列が本物のタンパク質コーディング領域である可能性を反映するスコアを割り当てる。PSAURONのスコアは、ゲノムワイドなタンパク質アノテーションの評価だけでなく、アノテーションされた潜在的な偽タンパク質の迅速な同定にも使用できる。確立されたベンチマークとの比較検証により、PSAURONの有効性とタンパク質の品質に関する一般的な指標との相関性が実証され、遺伝子アノテーションの精度を評価する手法として広く利用できる可能性が示された。PSAURONはオープンソースで、https://github.com/salzberg-lab/PSAURONで利用できる。
ゲノムアセンブリの完全性と質を評価するために、多くのメトリックスが開発されている。Merquryは、アセンブリ品質、完全性、フェージングをk-merベースで評価する。QUASTやGAGEなどのツールは、アセンブリの完全性と品質の評価指標を提供する。BUSCO (Benchmarking Universal Single-Copy Orthologs)は、シングルコピーオルソログを用いて、ゲノムアセンブリとアノテーションの完全性を推定するツールとして広く利用されている。OMArkは、オルソログタンパク質情報を用いて、ゲノムの完全性を定量化し、分類学的一貫性を評価し、分類学的に一貫性のないタンパク質による汚染を検出する。アライメントフリー、k-merフリー、リファレンスフリーのアノテーションの精度を評価する方法は今のところ存在しない。
ここでは、PSAURON [Protein Sequence Assessment Using a Reference ORF Network; 発音は「Sauron」を紹介する。PSAURONは、予測されたタンパク質配列を正確にスコア化し、タンパク質をコードする遺伝子のアノテーションをゲノムワイドに評価できる新しいソフトウェアツールである。原核生物のゲノムアノテーションに適用した機械学習モデルである時間畳み込みネットワーク(TCN)を用いて、PSAURONはコーディング配列(CDS)を解析し、与えられたアノテーションがタンパク質コード遺伝子を正しく識別している可能性を評価する。PSAURON TCNは、様々な動植物ゲノムのタンパク質配列の包括的なデータセットを用いて学習させた。これにより、再学習の必要なく、タンパク質コード配列を示す一般的なパターンを認識できるようになった。
Check out our just-published AI-based (temporal convolutional network) system, PSAURON, for predicting eukaryotic proteins, from @markusjsommer. We used a similar method in BALROG, our bacterial gene finder. Note: the "P" is silent in PSAURON 🤣 https://t.co/WBBS7vDezh
— Steven Salzberg 💙💛 (@StevenSalzberg1) January 11, 2025
インストール
condaでpythonの環境を作って導入した。
- PSAURON can run on GPU or CPU and depends on PyTorch
mamba create -n psauron python=3.11 -y
conda activate psauron
pip install psauron
> psauron -h
PSAURON version 1.0.4
usage: psauron [-h] -i INPUT_FASTA [-o OUTPUT_PATH] [-m MINIMUM_LENGTH] [-e EXCLUDE] [--inframe INFRAME] [--outframe OUTFRAME] [-c] [-s] [-p] [-a] [-v]
options:
-h, --help show this help message and exit
-i INPUT_FASTA, --input-fasta INPUT_FASTA
REQUIRED path to FASTA with spliced CDS sequence or protein sequence. A spliced CDS fasta can be created from a GTF/GFF and a reference FASTA by using gffread.
-o OUTPUT_PATH, --output-path OUTPUT_PATH
OPTIONAL path to output results file, default=./psauron_score.csv
-m MINIMUM_LENGTH, --minimum-length MINIMUM_LENGTH
OPTIONAL exclude all proteins shorter than m amino acids, default=5
-e EXCLUDE, --exclude EXCLUDE
OPTIONAL exclude any CDS where FASTA description contains given text (case invariant), e.g. "hypothetical", default=None
--inframe INFRAME OPTIONAL probability threshold used to determine final psauron score, in-frame, higher number decreases sensitivity and increases specificity, default=0.5, range=[0,1]
--outframe OUTFRAME OPTIONAL probability threshold used to determine final psauron score, out-of-frame, higher number increases sensitivity and decreases specificity, default=0.5, range=[0,1]
-c, --use-cpu OPTIONAL set -c to force usage of CPU instead of GPU, default=False
-s, --single-frame OPTIONAL set -s to score only the in-frame CDS, which may lower accuracy of the model, default=False
-p, --protein OPTIONAL set -p if your FASTA contains amino acid protein sequence, which may lower accuracy of the model, default=False
-a, --all-prob OPTIONAL set -a to output per-amino-acid predicted probabilities, NOTE: these may not behave as expected due to receptive field size, default=False
-v, --verbose OPTIONAL set -v for verbose output with progress bars etc., default=False
-i INPUT_FASTA, REQUIRED path to FASTA with spliced CDS sequence. This fasta can be created from a GTF/GFF and a reference FASTA by using gffread.
Example gffread commands to get CDS FASTA:
gffread -x CDS_FASTA.fa -g genome.fa input.gff
gffread -x CDS_FASTA.fa -g genome.fa input.gtf
実行方法
デフォルトでは、PSAURONはヌクレオチドコード配列(CDS)の6フレームすべてを使用する。-cでCPU使用。
psauron -i your_CDS.fa -o output.csv
- -c to force usage of CPU instead of GPU, default=False
- -i REQUIRED path to FASTA with spliced CDS sequence or protein sequence. A spliced CDS fasta can be created from a GTF/GFF and a reference FASTA by using gffread.
- -o OPTIONAL path to output results file, default=./psauron_score.csv
もしくはタンパク質(アミノ酸)配列のmulti-fastaを指定する。
psauron -i protein.faa -o output.csv -p

出力例
> head -n 30 output.csv

各タンパク質を個別にスコアリングするだけでなく、PSAURONは入力されたアノテーション全体に対して0~100の総合スコアも出力する。このスコアは、アノテーションで提供されたタンパク質のうち、「ポジティブ」な評価を受けたタンパク質の割合を示す。
レポジトリより
- 内部停止コドンはPSAURONでは無視される。PSAURONのスコアが高いからといって、その配列に有効なORFが含まれていることを保証するものではない。これは意図された動作であり、代替フレームスコアはモデルのパワーを高めるためにデフォルトで使用される。
- 論文表1の様々な生物種におけるPSAURONスコアは、PSAURONはスコアのカットオフは0.5、タンパク質の最小長さの閾値なしのシングルフレームまたはタンパク質モードで実行されている。
- PSAURONは、2023年8月時点でNCBI RefSeqデータベースから入手可能なすべての動植物ゲノムでトレーニングされた。
- 、PSAURONはTAIR10の全タンパク質35 386個を132秒でスコアリングし、ピーク時のメモリ使用量は1.95GBだった。
- PSAURONのスコアは、TAIRの信頼度ランキングと一致していた。論文図5に示すように、信頼度の高いタンパク質(星2~5)は、PSAURONのスコアが非常に高く、1.0に近い値が密に分布していた。
- PSAURONスコアがAF2のスコアと一致していることを論文内で示している;”AF2は、各構造に対してpredicted local distance difference test (pLDDT)と呼ばれるスコアも生成し、構造予測に対するプログラムの信頼度を示す。70点以下の低得点の構造は「信頼度が低いとみなされ、ヒトゲノムの場合、約58%のタンパク質が70点以上の高信頼性グループに入る(ref.18)。AlphaFold2によって割り当てられたスコアは、多種多様な生物間で同様の分布に従うはずだと仮定しpLDDTスコアの分布を調べると、イネプロテオームで異常を示した。異常はRefSeqイネアノテーションでは観察されず、UniProtイネアノテーションでのみ観察された。PSAURONのスコアが低いイネタンパク質はAlphaFold2の信頼度スコアも低い傾向があり、PSAURONのスコアが低いタンパク質の96.9%はpLDDTが70以下だった。従って、現在のUniProtイネプロテオームアノテーションには、誤ったアノテーションがされている可能性のあるタンパク質が数千個含まれていると予想される。”
- 真の陰性配列、すなわち有効なタンパク質を含まない配列に対するPSAURONの性能を評価するために、のヒトlong non-coding RNA(lncRNA)転写産物を使用したときのスコア分布もRefSeq proteinと比較して調べられている(図6)。
引用
PSAURON: a tool for assessing protein annotation across a broad range of species
Markus J Sommer, Aleksey V Zimin, Steven L Salzberg
NAR Genomics and Bioinformatics, Volume 7, Issue 1, March 2025, lqae189,
関連