KofamKOALAのアノテーション結果からKEGGオルソログを抽出する KEGG_Extractor

　KEGG Orthology (KO) データベースは、ほとんどの微生物の機能アノテーションを行うことができる、広く使われている分子機能参照データベースである。現在、機能的なオルソログをアノテーションするためのKOエントリーに基づく多くのKEGGツールが存在する。しかし、KEGGのアノテーション結果をどのように効率よく抽出・分類するかは、その後のゲノム解析の妨げになっている。KEGG アノテーションの遺伝子配列や生物種情報を迅速に抽出・分類するための有効な手段がないのが現状である。ここでは、その支援ツールを紹介する： KEGG_Extractorは、種特異的な遺伝子の抽出と分類のためのツールであり、反復的なキーワードマッチングアルゴリズムによって結果を出力することができる。アミノ酸配列だけでなく、塩基配列の抽出・分類も可能であり、微生物解析において高速かつ効率的であることが証明された。KEGG_Extractorを用いた古代のWood Ljungdahl（WL）パスウェイの解析により、〜226の古細菌株がWL経路関連遺伝子を含んでいることが明らかになった。その多くは、Methanococcus maripaludis、Methanosarcina mazei、Methanobacterium、Thermococcus、Methanosarcina属のメンバーであった。KEGG_Extractorを使用して、高い精度と補完性を持つARWLデータベースを構築した。本ツールは、遺伝子とKEGGパスウェイを結びつけ、分子ネットワークの再構築を促進するのに役立つ。KEGG_ExtractorはGitHubから自由に入手可能である。

KEGG_ExtractorはKofamKOALAのKEGG アノテーションの配列を迅速に抽出・分類する。抽出されたすべての配列を異なるKOの割り当てに従って保存し、結果に種情報を付加して、種特異的な遺伝子配列を表示することができる。

インストール

macos12.6でテストした。

依存

requests
pandas

Github

git clone https://github.com/xielisos567/KEGG_extractor.git
cd KEGG_extractor/

> python KEGG_extractor.py -h

$ python KEGG_extractor.py -h

usage: KEGG_extractor.py [-h] -i REFDIR -f RESULT -s SPECIESDIR -o OUTDIR

extract seq

options:

-h, --help show this help message and exit

-i REFDIR, --refdir REFDIR

reference dir

-f RESULT, --result RESULT

analysis result

-s SPECIESDIR, --speciesdir SPECIESDIR

species info dir

-o OUTDIR, --outdir OUTDIR

output dir

テストラン

ランするにはタンパク質のfastaファイルが必要。KofamKOALAのアノテーション結果と照合するために、各ファイル名とその中の配列名はKofamKOALAのアノテーションと名前が一致している必要がある。

KEGG_extractor/example/protein/

アセンブリのサマリーファイルも必要。テストデータには用意されている。

KEGG_extractor/example/species

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/archaea/assembly_summary.txt

各古細菌ゲノムの完全な種情報が含まれており、これによって、KEGG_Extractorは対応する抽出遺伝子とリンクさせることができる。

8列目と9列目には下の画像のように種情報がある必要がある。

KofamKOALAのアノテーション結果。興味あるパスウェイのアノテーションだけ記載したものを用意する。テストデータは全ヒットからK00195(anaerobic carbon-monoxide dehydrogenase, CODH/ACS complex subunit epsilon) とK00192（anaerobic carbon-monoxide dehydrogenase, CODH/ACS complex subunit alpha [EC:1.2.7.4]）の注釈だけに絞り込まれている。このKO番号に従って結果は出力される。すなわち、KofamKOALAの結果を使い、K00195とK00192のIDが割り振られたタンパク質もしくはCDS配列が取り出されて保存される。

準備できたらランする。

cd KEGG_extractor/
unzip example.zip

#
python3 KEGG_extractor.py \
 -i example/protein\
 -f example/Wood-Ljungdahl_20.txt \
 -s example/species \
 -o example/results/result_protein_WL

該当するアノテーションのタンパク質が保存される。

CDS配列が取り出したいならタンパク質の代わりにCDSのfastaファイルを指定する。

python3 KEGG_extractor.py \
 -i example/cds \
 -f example/Wood-Ljungdahl_20.txt \
 -s example/species \
 -o example/results/result_cds_WL

引用

KEGG_Extractor: An Effective Extraction Tool for KEGG Orthologs
Chao Zhang, Zhongwei Chen, Miming Zhang, and Shulei Jia

Genes 2023, 14(2), 386

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

KofamKOALAのアノテーション結果からKEGGオルソログを抽出する KEGG_Extractor