2020 2/6 タイトル修正
近年、完全(complete)なゲノムとドラフトゲノムの数は急速に増加しており、これらのゲノムの遺伝子の機能的特性と生物学的役割の特定を自動化することがますます重要になっている。 KEGGデータベースでは、Smith–Watermanスコアを使用したベストヒット情報と手動キュレーションに基づいて、完全なゲノムの遺伝子にKEGG orthology (KO) identifiersまたはK番号の注釈が付けられている。各K番号は遺伝子のオーソロググループを表し、KEGGパスウェイマップまたはBRITE機能階層内(link)のオブジェクトに直接リンクされている。ここでは、KAAS(KEGG Automatic Annotation Server:http://www.genome.jp/kegg/kaas/)と呼ばれるWebベースのサーバーを開発した。つまり、K番号をゲノムの遺伝子に自動的に割り当てる迅速な方法の実装で ある。これにより 、KEGGパスウェイとBRITE階層の再構築が可能になる。この方法は、配列の類似性、双方向のベストヒット情報、およびいくつかのヒューリスティックに基づいており、手動でキュレーションされたKEGG GENESデータベースと比較した場合に高い精度を達成している。
KAAS help
https://www.genome.jp/kegg/kaas/help.html
https://www.genome.jp/kegg/kaas/にアクセスする。
complete or draft genomeであれば1番上を選択。
アミノ酸配列をペーストするか、アミノ酸配列のmulti fastaをローカルからアップロードする。cDNA/EST などに由来する塩基配列も指定できる(blastのみ)。
GHOSTXよりblastの方が精度は高いが(論文の図6参照)、配列数が多いならGHOSTXに切り替えるとジョブが早く終わる(SBH (single-directional best hit)にするとさらに半分の時間になる)。
クエリ名、メールアドレス、KOアサインのための遺伝子セット(link)を指定する。
Computeボタンを押すと、指定したメールアドレスに自動でメールが届く。メール中のリンクをクリックするとジョブがサブミットされる。
出力
サーバーからデータが消える前に以下のツールを走らせておくと良いと思います。結果を要約してくれます。
追記
この記事と同じタイミングでRyanさんがblastKOALAについて説明されています。
リンク先の説明のように、Procaryotesの自動アノテーション結果をクエリに使用して、パスウェイ解析やfunctional annotation を行えます。私はメタゲノムやDe novo transcriptome解析にも利用しています。
引用
KAAS: an automatic genome annotation and pathway reconstruction server
Moriya Y, Itoh M, Okuda S, Yoshizawa AC, Kanehisa M
Nucleic Acids Res. 2007 Jul;35(Web Server issue):W182-5. Epub 2007 May 25
参考
隠れマルコフモデルと適応的閾値を用いた KEGG オーソログ予測法の開発とウェブツールの構築
https://www.genome.jp/tools/kofamkoala/Takuya_Aramaki_Master_Thesis_2019.pdf
パスウェイデータベースの紹介とKEGG PATHWAYの使い方@AJACS安芸
動画と下の方にあるKAASの説明を見てください。