macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

KEGGの遺伝子アノテーション結果を要約する GAEV

2020 10/20 追記

 

 非モデルアセンブリのコンピュータ アノテーション付き遺伝子の生物学的機能と、これらの遺伝子の産物によって形成される分子パスウェイの説明は、種のさまざまな固有の生物学的属性(生理学、生活史、行動など)の遺伝的基盤を特定するために重要である。 DNA /タンパク質データベースに対する計算検索、例えばNCBI Blast(Boratyn et al、2013)、UniProt(Bateman et al、2017)、InterPro(Finn et al、2017)、Blast(Camacho et al、2009)、InterProScan(Jones et al、2014)、Hmmer(Mistry et al、2013)などのツールを使うと個々の遺伝子機能を予測できる。対照的に、単一の種の遺伝子スイート全体によってエンコードされた分子パスウェイを描くことは、特に非モデル種の場合、はるかに困難な作業になる。集中的に研究されたモデル生物に由来する分子パスウェイへの遺伝子のマッピングは、このニーズに対処するためのエントリーポイントを提供している。

 遺伝子を既知の分子パスウェイにマッピングするために、Kyoto Encyclopedia of Genes and Genomes (KEGG) は包括的なWebサービスを提供している(Kanehisa et al、2017; Kanehisa&Goto、2000; Kanehisa et al、2016a)。KEGGは、ゲノムシーケンスの生物学的解釈のための統合データベースである。遺伝子の分子機能は、オルソロググループ、つまりKEGG Orthology(KO)を使用して分類される。KEGGには、KEGGパスウェイ、BRITE階層、およびKEGGモジュールも含まれている。これらはすべてKOノードのネットワークである。 WebサーバーBlastKOALAおよびGhostKOALAを通じて提供されるKEGG自動アノテーションサービスを使用して、完全/部分ゲノムアセンブリまたはメタゲノムデータセットからの一連の遺伝子の分子機能およびそれらのエンコードされた分子パスウェイにアノテーションを付けることができる(Kanehisa et al、2016b)。モデルではない種については、KAAS(KEGG Automatic Annotation Server)Webサービスを使用して、遺伝子の完全なセットまたはランダムなセットにアノーテーションを付けて、それらの分子機能を記述し、特定された分子パスウェイにマッピングできる。アノテーション結果は、各遺伝子のKO番号、KEGGパスウェイデータベースにマップされた遺伝子、およびBRITEにマップされた遺伝子で構成される。それにもかかわらず、結果として得られるパスウェイとBRITE階層の完全なセットは、KEGGが提供する一時URLを介してのみ表示され、分析が完了してから数日間しか利用できない。これらの結果は、管理されたKEGGパスウェイまたはBRITE階層のいずれかで編成されているが、KAASは、遺伝子機能とパスウェイの統合的な遺伝子中心のビュー、つまり、遺伝子機能と各遺伝子のすべての関連分子パスウェイの完全な要約jは提供しない。

 想像できるように、KEGGオルソロジーKEGGパスウェイに基づく遺伝子の function annotationを統合すると、新しくアセンブリされたゲノムまたはメタゲノムデータセットの予測遺伝子と関連するパスウェイの両方を特徴付ける効率的な方法を提供できる。KEGGデータベースが提供するAPIインターフェースを使用してKEGGパスウェイを取得するための多数の計算パッケージ(例:Moutselos et al、2009; Wrzodek et al、2011)が存在するにもかかわらず、これらのパッケージはどれも、新しくアセンブリされたゲノムに含まれる分子パスウェイの完全なセットを再構築することはできない。KEGGの非常に有益なリソースを利用する手段を提供して非モデル種のゲノム配列と分子パスウェイにアノテーションを付けるため、KEGG APIを使用してKEGGオルソロジーアノテーションKEGGパスウェイマッピングの結果を統合するGene Annotation Easy Viewer(GAEV)を開発した。 GAEVは、遺伝子機能とパスウェイの遺伝子中心の視点、つまり、遺伝子機能の完全な要約と、各遺伝子に関連する可能性のあるすべての分子パスウェイを提供することを目的としている。これは、MEGAN(Huson et al、2016)やMinPath(Ye&Doak、2009)などの他のKEGG関連ソフトウェアとは異なる。 GAEVはPython 3で実装されており、独立したパッケージとして使用できる。

 

インストール

anaconda3.7環境でテストした(macos10.14使用)。

本体 Github

git clone https://github.com/UtaDaphniaLab/Gene_Annotation_Easy_Viewer.git
cd Gene_Annotation_Easy_Viewer/gene_annotation_easy_viewer/

  

実行方法

1、リストの準備

KAAS、BlastKOALA、GhostKOALA、またはKofamKOALA(paper)を使い、配列にKEGG  Identifier(KO)をアサインしたファイルを準備する。

Download KO listからダウンロードできる。

f:id:kazumaxneo:20200206154350p:plain

このようなファイルになる(Githubのexampleデータ)。

f:id:kazumaxneo:20200206152539p:plain

 

2、実行

GAEV を使うには本体を叩く。

python GAEV.py

対話式で進める。バッチモードもあるが1を選択した。

$ python GAEV.py 

 

Would you like to:

   1) Create a new data file and generate a table from a new dataset of KO numbers

   2) Create a new data file and generate a table from a new dataset of KO numbers (Batch)

   3) Generate a new table from an existing data file

   4) Generate a new table from an existing data file (Batch)

 

Input a digit for your choice: 

 

リストファイルを指定する(カレントにないならフルパスで)。

Input a digit for your choice: 1

 

Please enter either the relative or absolute path to the input file below

query.ko.txt

(ファイルのパスをコピペしたなら最後にスペースが入る。残っているとエラーになる。)

 

抽出開始

f:id:kazumaxneo:20200206153257p:plain

 

何らかのキーでフィルタリングするか聞かれる。ここではno

Extracting data from KEGG (complete)

 

Would you like to filter the data?

   1) Yes

   2) No

 

 

 

出力ファイル名を指定

Enter the output file name or press ENTER to use the default name [query.ko]:

 

output

 

出力内容を聞かれる。ここでは遺伝子名のテーブルと代謝マップにアサインされた結果が欲しいので2を選択。

Would you like to:

   1) Generate a table of genes (HTML + txt)

   2) Generate a table of genes and pathways (HTML + txt)

   3) Generate a table of pathways (HTML + txt)

   4) Generate a only a table of genes without links to pathway maps (txt, tab-delimited, small size)

 

   Note: The txt file is tab delimited and easily manipulated in text editors, but does not contain embedded links.

 

 

3、出力

IDに遺伝子名と注釈が付いた。

f:id:kazumaxneo:20200206154815p:plain

 

GAEVの出力内容選択時に2か3を選択していればhtmlレポートも出力される。隠しているが、正しく遺伝子名がアサインされている。

f:id:kazumaxneo:20200206153939p:plain

f:id:kazumaxneo:20200206154227p:plain

クリックするとジャンプする。

f:id:kazumaxneo:20200206154107p:plain

 

追記

KAASの結果と比較すると違いが見つかることがありました。便利なツールですが注意して使って下さい。

引用

Gene Annotation Easy Viewer (GAEV): Integrating KEGG's Gene Function Annotations and Associated Molecular Pathways

Huynh T, Xu S

Version 3. F1000Res. 2018 Mar 29 [revised 2019 May 9];7:416