macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

原核生物のゲノムアノテーションを比較する ORForise

 

 モデル生物の過去のゲノムアノテーションに基づいて行われてきたオープンリーディングフレーム(ORF)予測ツールの偏りは、新規ゲノムやメタゲノムの理解に影響を与えている。これは、予測が既存の知識に偏ることになるため、新しいゲノム情報の発見を妨げることになる。これまでユーザーは、あらゆるORF予測ツールの長所と短所を特定し、分析に適したツールを選択するための体系的で再現性のあるアプローチを持ち合わせていなかった。ここでは、12の一次指標と60の二次指標に基づいた評価フレームワーク(ORForise)を発表する。これにより、特定のユースケースにおいてどのツールがより優れているかを特定することができる。これを用いて、ゲノムデータベースの知識を得るために、歴史的にも現在的にも最も広く使用されている15のab initioおよびモデルベースのツールを評価した。その結果、どのツールの性能も解析対象のゲノムに依存しており、すべてのゲノムや解析手法において最も精度が高いと評価されたツールはなかった。上位にランクインしたツールであっても、集約しても解決できない矛盾した遺伝子コレクションを作成していた。ORForise評価フレームワークは、新しいゲノムアノテーションや過去のアノテーションを改良する際に、十分な情報に基づいてツールを選択するための再現性のあるデータ主導型のアプローチをユーザーに提供する。

 

Githubより

ORForiseは原核生物のタンパク質コード遺伝子予測を分析するためのプラットフォームである。新規のゲノムアノテーションEnsemblのゴールドスタンダードアノテーション(または任意のGFFアノテーション)や他のツールの予測値と比較することができる。

 

インストール

依存

  • The ORForise platform is written in Python3 and only requires the Numpy library.

Github

git clone https://github.com/NickJD/ORForise.git

python ORForise.py -h

$ python ORForise.py -h

usage: ORForise.py [-h] -t TOOL [-p PARAMETERS] -g GENOME_TO_COMPARE

 

optional arguments:

  -h, --help            show this help message and exit

  -t TOOL, --tool TOOL  Which tool to analyse?

  -p PARAMETERS, --parameters PARAMETERS

                        Optional parameters for prediction tool.

  -g GENOME_TO_COMPARE, --genome_to_compare GENOME_TO_COMPARE

                        Which genome to analyse? Genome files have same prefix - .fa and .gff appended

 

 

実行方法

ランするには、入力 ゲノムFASTAとそれに対応するGFFファイルが必要(比較したいゲノムのアノテーションされた遺伝子を含む)。各ツールそれぞれのディレクトリを必要とし、予測出力は出力ディレクトリ+種名になっていないといけない。

python3 ORForise.py -t Prodigal -tp input.gff -dna input.fasta -o out.csv

 

テストデータ

ORForise/src/Genomes/にテストデータが含まれている。

 

引用

No one tool to rule them all: Prokaryotic gene prediction tool performance is highly dependent on the organism of study

Nicholas J. Dimonaco, Wayne Aubrey, Kim Kenobi, Amanda Clare, Christopher J. Creevey

bioRxiv, Posted May 23, 2021

 

関連