モデル生物の過去のゲノムアノテーションに基づいて行われてきたオープンリーディングフレーム(ORF)予測ツールの偏りは、新規ゲノムやメタゲノムの理解に影響を与えている。これは、予測が既存の知識に偏ることになるため、新しいゲノム情報の発見を妨げることになる。これまでユーザーは、あらゆるORF予測ツールの長所と短所を特定し、分析に適したツールを選択するための体系的で再現性のあるアプローチを持ち合わせていなかった。ここでは、12の一次指標と60の二次指標に基づいた評価フレームワーク(ORForise)を発表する。これにより、特定のユースケースにおいてどのツールがより優れているかを特定することができる。これを用いて、ゲノムデータベースの知識を得るために、歴史的にも現在的にも最も広く使用されている15のab initioおよびモデルベースのツールを評価した。その結果、どのツールの性能も解析対象のゲノムに依存しており、すべてのゲノムや解析手法において最も精度が高いと評価されたツールはなかった。上位にランクインしたツールであっても、集約しても解決できない矛盾した遺伝子コレクションを作成していた。ORForise評価フレームワークは、新しいゲノムアノテーションや過去のアノテーションを改良する際に、十分な情報に基づいてツールを選択するための再現性のあるデータ主導型のアプローチをユーザーに提供する。
Githubより
ORForiseは原核生物のタンパク質コード遺伝子予測を分析するためのプラットフォームである。新規のゲノムアノテーションをEnsemblのゴールドスタンダードアノテーション(または任意のGFFアノテーション)や他のツールの予測値と比較することができる。
インストール
依存
- The ORForise platform is written in Python3 and only requires the Numpy library.
git clone https://github.com/NickJD/ORForise.git
> python ORForise.py -h
$ python ORForise.py -h
usage: ORForise.py [-h] -t TOOL [-p PARAMETERS] -g GENOME_TO_COMPARE
optional arguments:
-h, --help show this help message and exit
-t TOOL, --tool TOOL Which tool to analyse?
-p PARAMETERS, --parameters PARAMETERS
Optional parameters for prediction tool.
-g GENOME_TO_COMPARE, --genome_to_compare GENOME_TO_COMPARE
Which genome to analyse? Genome files have same prefix - .fa and .gff appended
実行方法
ランするには、入力 ゲノムFASTAとそれに対応するGFFファイルが必要(比較したいゲノムのアノテーションされた遺伝子を含む)。各ツールそれぞれのディレクトリを必要とし、予測出力は出力ディレクトリ+種名になっていないといけない。
python3 ORForise.py -t Prodigal -tp input.gff -dna input.fasta -o out.csv
テストデータ
ORForise/src/Genomes/にテストデータが含まれている。
引用
No one tool to rule them all: Prokaryotic gene prediction tool performance is highly dependent on the organism of study
Nicholas J. Dimonaco, Wayne Aubrey, Kim Kenobi, Amanda Clare, Christopher J. Creevey
bioRxiv, Posted May 23, 2021
関連