ゲノムアノテーションは、ゲノム配列中の異なるセグメントの機能を同定して示すために使用され[ 論文より ref.1 ]、多くの下流ゲノム解析の基礎となっている。 真核生物[ref. 2 ]および原核生物[ref. 3 ]のためのいくつかのアノテーション手法(AM)が開発されている。 これらのAMツールにはいくつかの自然な疑問が出てくる。すなわち長所と短所や違い、生成されるアノテーションの比較と個々のAMツール間の拡張はどうなのかなどの疑問である。 このようなユーティリティを備えたツールが現場の研究者にとって大きな助けになるという事実にもかかわらず、注釈間の詳細な比較を提供する公的自動システムは利用できない。
バクテリアゲノムに注釈を付ける多くのAMが開発されている。 例えば、NCBI原核生物ゲノム自動アノテーションパイプライン(PGAAP)[ref. 7 ]、バクテリアゲノムの自動アノテーション(AAMG)[ ref.8 ]、サブシステム技術を用いた迅速なアノテーション(RAST)[ ref.9 ]、BG7システム[ ref.10 ] Prokka [ref. 11 ]、ゲノム科学研究所(IGS)からの原核生物注釈パイプライン[ ref.12 ]、および統合微生物ゲノムエキスパートレビューシステム(IMG / ER)[ ref.13 ]などがある(論文執筆時点)。 同一のゲノムに対するこれらのAMの出力は、アノテーションプロセス[ref. 14 ]に一般的に認められている標準がないため、かなり異なる可能性がある。(以下略)
BEACON(B acterial G E nome A nnotation Comparis ON )は原核生物ゲノムの機能注釈に関するこれらの問題に対処するシンプルで効果的な自動化ツール。BEACONで実装されたメソッドは、複数のAMによって生成されたゲノム注釈の完全自動化であり、シンプルかつクイック比較を提供し、4つのポイントに対処する。1)NCBI(ref.4)のデータからのアノテーションや、BROAD Institute(ref.5)からのアノテーションなど複数のAMからの注釈を比較する。 2)同じゲノムについて異なるAMによって得られたアノテーションを比較する。 3)異なるAMが類似の遺伝子に異なる機能を割り当てる場合、遺伝子機能のための拡張注釈を生成する(この注釈をExtendted Annoatation: EAと表記する)。 4)他のAMからのユニークなアノテーションを追加することによりEAを拡張する(Extendted Unique Annoatation: EUAと表記する)。EAは、遺伝子機能の拡張アノテーションを提供し、機能によってアノテーションを付けられた遺伝子の数を増加させる。 これにより、単一のAMツールのアノテーションと比較して、割り当てられた機能を有する遺伝子の数が(本発明者らの実験では最大27%まで)増加する。 他方、EUAは、EAに加えて、他のアノテーションから一意にアノテートされた遺伝子を追加することによって、単一のAMツールのアノテーションセットを拡大する。 論文中ではH. utahensisゲノムのアノテーションにBEACONを適用することによって得られた結果を示している。例えばBEACONの用途の1つは、古くにアノテーションが行われ、その後更新されていない多数のバクテリアゲノムのアノテーションを更新することである。 このような場合、BEACONによって複数のAMを導入できるとされる。
ソースコードのダウンロード
http://www.cbrc.kaust.edu.sa/BEACON/Download.html
ラン
webサーバーがある。
比較するアノテーションはGenbank formatで与える必要がある。
prokka、RASTのアノテーションを比較すると何かがコンパチではないためかエラーになってしまった。DDBJとNCBIに登録されている同じE.coli K12のgenbankを比較してみた。
100%合致で分かりにくいが、下図はベン図である。
詳細なSummary reportと上記のベン図もダウンロードできるようになっている。
Example dataとsummaryダウンロード(直リンク)
exampleで RASTも比較されているので、使えそうである(RAST)。
引用
BEACON: automated tool for Bacterial GEnome Annotation ComparisON
Manal Kalkatawi, Intikhab Alam, Vladimir B. Baji
BMC Genomics. 2015; 16(1): 616.