以前このブログで細菌ゲノム配列およびプラスミド配列のアノテーションを行うBaktaというツールを紹介しました(リンク)。BaktaはFAIRの原則に従った標準アノテーションを高速に実行でき、アノテーション結果をNCBIやENAに直接登録できる(レポジトリ参照)、低分子タンパク質のアノテーションに対応、専用のデータベースを使ての病原性因子のアノテーション、各種ノンコーディングRNAのアノテーション、などの特徴を備えたツールです。ブログで紹介後しばらくしてBaktaに関する論文が出版されたので読んでみました。興味深かったのは、既存の分類群に分類されないアノテーションが難しい数百の細菌ゲノムとメタゲノムアセンブルゲノム(MAG)を使ったアノテーションのベンチマーク結果が提示されていたことで(図3、4)、よく使われるprokkaやDFASTと比較してhypothetical proteinとして機能アサインされる遺伝子の割合が少ない傾向が出ていました。この結果は、機能アノテーションや機能カテゴリのアサインに成功したタンパク質の割合が増えたということです(理由については論文を読んで下さい)。また、この論文ではBaktaのweb版も紹介していました。ここでは、Baktaのアテーションを行ったり(単一のゲノム)、結果のJSONファイルを読み込んで視覚化できるBakta webについて簡単に紹介します。
Bakta web manual
https://bakta.readthedocs.io/en/latest/WEBUI.html
以下のツールとデータベースが使用されています。
Bakta web
https://bakta.computational.bio/submitにアクセスする。
fasta形式の配列をアップロードするとオプションが表示される。
chromosomeを2つ持つ完全長ゲノム配列を指定したので、写真下のテーブルには2つ表示されている。
属や種を指定できる。
完全長ゲノムとINSDC compliant output (ここではNCBIとENA)にチェックを付けた。submitをクリックしてジョブのキューを追加する。
試した時はエラーになった。
Viewerタブ
Bakta出力のJSONファイルを指定する。
インタラクティブなゲノムブラウザ、集約されたフィーチャー数、予測された各フィーチャーの詳細情報を含む検索可能なデータテーブル、および公共データベースへのdbxrefリンクレコードを提供します。サーバーにデータを送信することなく、ブラウザ内でローカルに解析・可視化されたJSON結果ファイルを受け取るオフラインビューアとなっています(マニュアルより)。
引用
Bakta: rapid and standardized annotation of bacterial genomes via alignment-free sequence identification
Oliver Schwengers, Lukas Jelonek, Marius Alfred Dieckmann, Sebastian Beyvers, Jochen Blom, Alexander Goesmann
Microb Genom. 2021 Nov;7(11)