KEGG Orthology (KO) データベースは、ほとんどの微生物の機能アノテーションを行うことができる、広く使われている分子機能参照データベースである。現在、機能的なオルソログをアノテーションするためのKOエントリーに基づく多くのKEGGツールが存在する。しかし、KEGGのアノテーション結果をどのように効率よく抽出・分類するかは、その後のゲノム解析の妨げになっている。KEGGアノテーションの遺伝子配列や生物種情報を迅速に抽出・分類するための有効な手段がないのが現状である。ここでは、その支援ツールを紹介する: KEGG_Extractorは、種特異的な遺伝子の抽出と分類のためのツールであり、反復的なキーワードマッチングアルゴリズムによって結果を出力することができる。アミノ酸配列だけでなく、塩基配列の抽出・分類も可能であり、微生物解析において高速かつ効率的であることが証明された。KEGG_Extractorを用いた古代のWood Ljungdahl(WL)パスウェイの解析により、〜226の古細菌株がWL経路関連遺伝子を含んでいることが明らかになった。その多くは、Methanococcus maripaludis、Methanosarcina mazei、Methanobacterium、Thermococcus、Methanosarcina属のメンバーであった。KEGG_Extractorを使用して、高い精度と補完性を持つARWLデータベースを構築した。本ツールは、遺伝子とKEGGパスウェイを結びつけ、分子ネットワークの再構築を促進するのに役立つ。KEGG_ExtractorはGitHubから自由に入手可能である。
KEGG_ExtractorはKofamKOALAのKEGGアノテーションの配列を迅速に抽出・分類する。抽出されたすべての配列を異なるKOの割り当てに従って保存し、結果に種情報を付加して、種特異的な遺伝子配列を表示することができる。
インストール
macos12.6でテストした。
依存
- requests
- pandas
git clone https://github.com/xielisos567/KEGG_extractor.git
cd KEGG_extractor/
usage: KEGG_extractor.py [-h] -i REFDIR -f RESULT -s SPECIESDIR -o OUTDIR
extract seq
options:
-h, --help show this help message and exit
-i REFDIR, --refdir REFDIR
reference dir
-f RESULT, --result RESULT
analysis result
-s SPECIESDIR, --speciesdir SPECIESDIR
species info dir
-o OUTDIR, --outdir OUTDIR
output dir
テストラン
ランするにはタンパク質のfastaファイルが必要。KofamKOALAのアノテーション結果と照合するために、各ファイル名とその中の配列名はKofamKOALAのアノテーションと名前が一致している必要がある。
KEGG_extractor/example/protein/
アセンブリのサマリーファイルも必要。テストデータには用意されている。
KEGG_extractor/example/species
https://ftp.ncbi.nlm.nih.gov/genomes/refseq/archaea/assembly_summary.txt
各古細菌ゲノムの完全な種情報が含まれており、これによって、KEGG_Extractorは対応する抽出遺伝子とリンクさせることができる。
8列目と9列目には下の画像のように種情報がある必要がある。
KofamKOALAのアノテーション結果。興味あるパスウェイのアノテーションだけ記載したものを用意する。テストデータは全ヒットからK00195(anaerobic carbon-monoxide dehydrogenase, CODH/ACS complex subunit epsilon) とK00192(anaerobic carbon-monoxide dehydrogenase, CODH/ACS complex subunit alpha [EC:1.2.7.4])の注釈だけに絞り込まれている。このKO番号に従って結果は出力される。すなわち、KofamKOALAの結果を使い、K00195とK00192のIDが割り振られたタンパク質もしくはCDS配列が取り出されて保存される。
準備できたらランする。
cd KEGG_extractor/
unzip example.zip
#
python3 KEGG_extractor.py \
-i example/protein\
-f example/Wood-Ljungdahl_20.txt \
-s example/species \
-o example/results/result_protein_WL
該当するアノテーションのタンパク質が保存される。
CDS配列が取り出したいならタンパク質の代わりにCDSのfastaファイルを指定する。
python3 KEGG_extractor.py \
-i example/cds \
-f example/Wood-Ljungdahl_20.txt \
-s example/species \
-o example/results/result_cds_WL
引用
KEGG_Extractor: An Effective Extraction Tool for KEGG Orthologs
Chao Zhang, Zhongwei Chen, Miming Zhang, and Shulei Jia
Genes 2023, 14(2), 386
関連