macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアゲノムとプラスミド配列のアノテーションを行うBaktaのwebバージョン

 

 以前このブログで細菌ゲノム配列およびプラスミド配列のアノテーションを行うBaktaというツールを紹介しました(リンク)。BaktaはFAIRの原則に従った標準アノテーションを高速に実行でき、アノテーション結果をNCBIやENAに直接登録できる(レポジトリ参照)、低分子タンパク質のアノテーションに対応、専用のデータベースを使ての病原性因子のアノテーション、各種ノンコーディングRNAアノテーション、などの特徴を備えたツールです。ブログで紹介後しばらくしてBaktaに関する論文が出版されたので読んでみました。興味深かったのは、既存の分類群に分類されないアノテーションが難しい数百の細菌ゲノムとメタゲノムアセンブルゲノム(MAG)を使ったアノテーションベンチマーク結果が提示されていたことで(図3、4)、よく使われるprokkaやDFASTと比較してhypothetical proteinとして機能アサインされる遺伝子の割合が少ない傾向が出ていました。この結果は、機能アノテーションや機能カテゴリのアサインに成功したタンパク質の割合が増えたということです(理由については論文を読んで下さい)。また、この論文ではBaktaのweb版も紹介していました。ここでは、Baktaのアテーションを行ったり(単一のゲノム)、結果のJSONファイルを読み込んで視覚化できるBakta webについて簡単に紹介します。

 

Bakta web manual

https://bakta.readthedocs.io/en/latest/WEBUI.html

Github


以下のツールとデータベースが使用されています。

f:id:kazumaxneo:20220311091545p:plain

Bakta web

https://bakta.computational.bio/submitにアクセスする。

f:id:kazumaxneo:20220310235517p:plain

 

fasta形式の配列をアップロードするとオプションが表示される。

f:id:kazumaxneo:20220311001125p:plain

chromosomeを2つ持つ完全長ゲノム配列を指定したので、写真下のテーブルには2つ表示されている。

 

属や種を指定できる。

f:id:kazumaxneo:20220311001152p:plain

 

完全長ゲノムとINSDC compliant output (ここではNCBIとENA)にチェックを付けた。submitをクリックしてジョブのキューを追加する。

f:id:kazumaxneo:20220311001508p:plain

試した時はエラーになった。

 

Viewerタブ

Bakta出力のJSONファイルを指定する。

f:id:kazumaxneo:20220311092609p:plain

f:id:kazumaxneo:20220311092619p:plain

f:id:kazumaxneo:20220311092629p:plain

インタラクティブなゲノムブラウザ、集約されたフィーチャー数、予測された各フィーチャーの詳細情報を含む検索可能なデータテーブル、および公共データベースへのdbxrefリンクレコードを提供します。サーバーにデータを送信することなく、ブラウザ内でローカルに解析・可視化されたJSON結果ファイルを受け取るオフラインビューアとなっています(マニュアルより)。

 

引用

Bakta: rapid and standardized annotation of bacterial genomes via alignment-free sequence identification

Oliver Schwengers, Lukas Jelonek, Marius Alfred Dieckmann, Sebastian Beyvers, Jochen Blom, Alexander Goesmann

Microb Genom. 2021 Nov;7(11)