macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

KofamKOALAのアノテーション結果からKEGGオルソログを抽出する KEGG_Extractor

 

 KEGG Orthology (KO) データベースは、ほとんどの微生物の機能アノテーションを行うことができる、広く使われている分子機能参照データベースである。現在、機能的なオルソログをアノテーションするためのKOエントリーに基づく多くのKEGGツールが存在する。しかし、KEGGアノテーション結果をどのように効率よく抽出・分類するかは、その後のゲノム解析の妨げになっている。KEGGアノテーションの遺伝子配列や生物種情報を迅速に抽出・分類するための有効な手段がないのが現状である。ここでは、その支援ツールを紹介する: KEGG_Extractorは、種特異的な遺伝子の抽出と分類のためのツールであり、反復的なキーワードマッチングアルゴリズムによって結果を出力することができる。アミノ酸配列だけでなく、塩基配列の抽出・分類も可能であり、微生物解析において高速かつ効率的であることが証明された。KEGG_Extractorを用いた古代のWood Ljungdahl(WL)パスウェイの解析により、〜226古細菌株がWL経路関連遺伝子を含んでいることが明らかになった。その多くは、Methanococcus maripaludis、Methanosarcina mazei、Methanobacterium、Thermococcus、Methanosarcina属のメンバーであった。KEGG_Extractorを使用して、高い精度と補完性を持つARWLデータベースを構築した。本ツールは、遺伝子とKEGGパスウェイを結びつけ、分子ネットワークの再構築を促進するのに役立つ。KEGG_ExtractorはGitHubから自由に入手可能である。

KEGG_ExtractorはKofamKOALAのKEGGアノテーションの配列を迅速に抽出・分類する。抽出されたすべての配列を異なるKOの割り当てに従って保存し、結果に種情報を付加して、種特異的な遺伝子配列を表示することができる。

インストール

macos12.6でテストした。

依存

  • requests
  • pandas

Github

git clone https://github.com/xielisos567/KEGG_extractor.git
cd KEGG_extractor/

> python KEGG_extractor.py -h

$ python KEGG_extractor.py -h

usage: KEGG_extractor.py [-h] -i REFDIR -f RESULT -s SPECIESDIR -o OUTDIR

 

extract seq

 

options:

  -h, --help            show this help message and exit

  -i REFDIR, --refdir REFDIR

                        reference dir

  -f RESULT, --result RESULT

                        analysis result

  -s SPECIESDIR, --speciesdir SPECIESDIR

                        species info dir

  -o OUTDIR, --outdir OUTDIR

                        output dir

 

 

テストラン

ランするにはタンパク質のfastaファイルが必要。KofamKOALAのアノテーション結果と照合するために、各ファイル名とその中の配列名はKofamKOALAのアノテーションと名前が一致している必要がある。

KEGG_extractor/example/protein/

 

アセンブリのサマリーファイルも必要。テストデータには用意されている。

KEGG_extractor/example/species

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/archaea/assembly_summary.txt

古細菌ゲノムの完全な種情報が含まれており、これによって、KEGG_Extractorは対応する抽出遺伝子とリンクさせることができる。

8列目と9列目には下の画像のように種情報がある必要がある。

 

KofamKOALAのアノテーション結果。興味あるパスウェイのアノテーションだけ記載したものを用意する。テストデータは全ヒットからK00195(anaerobic carbon-monoxide dehydrogenase, CODH/ACS complex subunit epsilon) とK00192(anaerobic carbon-monoxide dehydrogenase, CODH/ACS complex subunit alpha [EC:1.2.7.4])の注釈だけに絞り込まれている。このKO番号に従って結果は出力される。すなわち、KofamKOALAの結果を使い、K00195とK00192のIDが割り振られたタンパク質もしくはCDS配列が取り出されて保存される。

 

準備できたらランする。

cd KEGG_extractor/
unzip example.zip

#
python3 KEGG_extractor.py \
-i example/protein\
-f example/Wood-Ljungdahl_20.txt \
-s example/species \
-o example/results/result_protein_WL

該当するアノテーションのタンパク質が保存される。

 

CDS配列が取り出したいならタンパク質の代わりにCDSfastaファイルを指定する。

python3 KEGG_extractor.py \
-i example/cds \
-f example/Wood-Ljungdahl_20.txt \
-s example/species \
-o example/results/result_cds_WL

 

引用

KEGG_Extractor: An Effective Extraction Tool for KEGG Orthologs
Chao Zhang, Zhongwei Chen, Miming Zhang, and Shulei Jia

Genes 2023, 14(2), 386

 

関連