macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

広範な生物種のタンパク質アノテーションを評価するツール PSAURON

 

 ゲノムアノテーションにおけるタンパク質コード配列の正確性を評価することは困難な問題であり、広く適用できる解決策がない。この原稿では、タンパク質コード遺伝子アノテーションの品質評価を支援するために開発された新しいソフトウェアツール、PSAURON(Protein Sequence Assessment Using a Reference ORF Network)を紹介する。PSAURONは、1000を超える動植物ゲノムの多様なデータセットで学習させた機械学習モデルを利用し、コーディングDNAまたはタンパク質配列に、その配列が本物のタンパク質コーディング領域である可能性を反映するスコアを割り当てる。PSAURONのスコアは、ゲノムワイドなタンパク質アノテーションの評価だけでなく、アノテーションされた潜在的な偽タンパク質の迅速な同定にも使用できる。確立されたベンチマークとの比較検証により、PSAURONの有効性とタンパク質の品質に関する一般的な指標との相関性が実証され、遺伝子アノテーションの精度を評価する手法として広く利用できる可能性が示された。PSAURONはオープンソースで、https://github.com/salzberg-lab/PSAURONで利用できる。

 

ゲノムアセンブリの完全性と質を評価するために、多くのメトリックスが開発されている。Merquryは、アセンブリ品質、完全性、フェージングをk-merベースで評価する。QUASTやGAGEなどのツールは、アセンブリの完全性と品質の評価指標を提供する。BUSCO (Benchmarking Universal Single-Copy Orthologs)は、シングルコピーオルソログを用いて、ゲノムアセンブリアノテーションの完全性を推定するツールとして広く利用されている。OMArkは、オルソログタンパク質情報を用いて、ゲノムの完全性を定量化し、分類学的一貫性を評価し、分類学的に一貫性のないタンパク質による汚染を検出する。アライメントフリー、k-merフリー、リファレンスフリーのアノテーションの精度を評価する方法は今のところ存在しない。

ここでは、PSAURON [Protein Sequence Assessment Using a Reference ORF Network; 発音は「Sauron」を紹介する。PSAURONは、予測されたタンパク質配列を正確にスコア化し、タンパク質をコードする遺伝子のアノテーションをゲノムワイドに評価できる新しいソフトウェアツールである。原核生物のゲノムアノテーションに適用した機械学習モデルである時間畳み込みネットワーク(TCN)を用いて、PSAURONはコーディング配列(CDS)を解析し、与えられたアノテーションがタンパク質コード遺伝子を正しく識別している可能性を評価する。PSAURON TCNは、様々な動植物ゲノムのタンパク質配列の包括的なデータセットを用いて学習させた。これにより、再学習の必要なく、タンパク質コード配列を示す一般的なパターンを認識できるようになった。

 

 

インストール

condaでpythonの環境を作って導入した。

  • PSAURON can run on GPU or CPU and depends on PyTorch

Github

mamba create -n psauron python=3.11 -y
conda activate psauron
pip install psauron

> psauron -h

PSAURON version 1.0.4

usage: psauron [-h] -i INPUT_FASTA [-o OUTPUT_PATH] [-m MINIMUM_LENGTH] [-e EXCLUDE] [--inframe INFRAME] [--outframe OUTFRAME] [-c] [-s] [-p] [-a] [-v]

 

options:

  -h, --help            show this help message and exit

  -i INPUT_FASTA, --input-fasta INPUT_FASTA

                        REQUIRED path to FASTA with spliced CDS sequence or protein sequence. A spliced CDS fasta can be created from a GTF/GFF and a reference FASTA by using gffread.

  -o OUTPUT_PATH, --output-path OUTPUT_PATH

                        OPTIONAL path to output results file, default=./psauron_score.csv

  -m MINIMUM_LENGTH, --minimum-length MINIMUM_LENGTH

                        OPTIONAL exclude all proteins shorter than m amino acids, default=5

  -e EXCLUDE, --exclude EXCLUDE

                        OPTIONAL exclude any CDS where FASTA description contains given text (case invariant), e.g. "hypothetical", default=None

  --inframe INFRAME     OPTIONAL probability threshold used to determine final psauron score, in-frame, higher number decreases sensitivity and increases specificity, default=0.5, range=[0,1]

  --outframe OUTFRAME   OPTIONAL probability threshold used to determine final psauron score, out-of-frame, higher number increases sensitivity and decreases specificity, default=0.5, range=[0,1]

  -c, --use-cpu         OPTIONAL set -c to force usage of CPU instead of GPU, default=False

  -s, --single-frame    OPTIONAL set -s to score only the in-frame CDS, which may lower accuracy of the model, default=False

  -p, --protein         OPTIONAL set -p if your FASTA contains amino acid protein sequence, which may lower accuracy of the model, default=False

  -a, --all-prob        OPTIONAL set -a to output per-amino-acid predicted probabilities, NOTE: these may not behave as expected due to receptive field size, default=False

  -v, --verbose         OPTIONAL set -v for verbose output with progress bars etc., default=False

 

 -i INPUT_FASTA, REQUIRED path to FASTA with spliced CDS sequence. This fasta can be created from a GTF/GFF and a reference FASTA by using gffread. 

 

Example gffread commands to get CDS FASTA:

gffread -x CDS_FASTA.fa -g genome.fa input.gff

gffread -x CDS_FASTA.fa -g genome.fa input.gtf

 

 

実行方法

デフォルトでは、PSAURONはヌクレオチドコード配列(CDS)の6フレームすべてを使用する。-cでCPU使用。

psauron -i your_CDS.fa -o output.csv
  • -c      to force usage of CPU instead of GPU, default=False
  • -i      REQUIRED path to FASTA with spliced CDS sequence or protein sequence. A spliced CDS fasta can be created from a GTF/GFF and a reference FASTA by using gffread.
  • -o    OPTIONAL path to output results file, default=./psauron_score.csv 

 

もしくはタンパク質(アミノ酸)配列のmulti-fastaを指定する。

psauron -i protein.faa -o output.csv -p

 

出力例

 > head -n 30 output.csv 

各タンパク質を個別にスコアリングするだけでなく、PSAURONは入力されたアノテーション全体に対して0~100の総合スコアも出力する。このスコアは、アノテーションで提供されたタンパク質のうち、「ポジティブ」な評価を受けたタンパク質の割合を示す。

 

レポジトリより

  • 内部停止コドンはPSAURONでは無視される。PSAURONのスコアが高いからといって、その配列に有効なORFが含まれていることを保証するものではない。これは意図された動作であり、代替フレームスコアはモデルのパワーを高めるためにデフォルトで使用される。
  • 論文表1の様々な生物種におけるPSAURONスコアは、PSAURONはスコアのカットオフは0.5、タンパク質の最小長さの閾値なしのシングルフレームまたはタンパク質モードで実行されている。
  • PSAURONは、2023年8月時点でNCBI RefSeqデータベースから入手可能なすべての動植物ゲノムでトレーニングされた。
  • 、PSAURONはTAIR10の全タンパク質35 386個を132秒でスコアリングし、ピーク時のメモリ使用量は1.95GBだった。
  • PSAURONのスコアは、TAIRの信頼度ランキングと一致していた。論文図5に示すように、信頼度の高いタンパク質(星2~5)は、PSAURONのスコアが非常に高く、1.0に近い値が密に分布していた。
  • PSAURONスコアがAF2のスコアと一致していることを論文内で示している;”AF2は、各構造に対してpredicted local distance difference test (pLDDT)と呼ばれるスコアも生成し、構造予測に対するプログラムの信頼度を示す。70点以下の低得点の構造は「信頼度が低いとみなされ、ヒトゲノムの場合、約58%のタンパク質が70点以上の高信頼性グループに入る(ref.18)。AlphaFold2によって割り当てられたスコアは、多種多様な生物間で同様の分布に従うはずだと仮定しpLDDTスコアの分布を調べると、イネプロテオームで異常を示した。異常はRefSeqイネアノテーションでは観察されず、UniProtイネアノテーションでのみ観察された。PSAURONのスコアが低いイネタンパク質はAlphaFold2の信頼度スコアも低い傾向があり、PSAURONのスコアが低いタンパク質の96.9%はpLDDTが70以下だった。従って、現在のUniProtイネプロテオームアノテーションには、誤ったアノテーションがされている可能性のあるタンパク質が数千個含まれていると予想される。”
  • 真の陰性配列、すなわち有効なタンパク質を含まない配列に対するPSAURONの性能を評価するために、のヒトlong non-coding RNA(lncRNA)転写産物を使用したときのスコア分布もRefSeq proteinと比較して調べられている(図6)。

引用

PSAURON: a tool for assessing protein annotation across a broad range of species 

Markus J Sommer, Aleksey V Zimin, Steven L Salzberg

NAR Genomics and Bioinformatics, Volume 7, Issue 1, March 2025, lqae189, 

 

関連