macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GenbankアクセッションIDからtaxonomyを返す acc2tax

 

タイトルの通りのツール。

 

インストール

macos標準のclangでビルドした。

Github

git clone https://github.com/richardmleggett/acc2tax.git
cd acc2tax/
cc -o acc2tax acc2tax.c

#パスの通ったディレクトリにコピー
cp acc2tax /usr/locasl/bin/

acc2tax -h

$ acc2tax -h

 

acc2tax v0.6

 

Bugs/comments: richard.leggett@tgac.ac.uk

 

Provide batch taxonomy information for Genbank IDs or Accessions.

 

Options:

    [-h | --help]       This help screen.

    [-a | --accession]  Query is accession IDs [default].

    [-c | --column]     1-based column number of ID in input file (default 1).

    [-d | --database]   Directory containing NCBI taxonomy files.

    [-e | --entries]    Max GI entries (default 1050000000).

    [-g | --gi]         Query is Genbank IDs.

    [-i | --input]      File of IDs (GI or Accession), one per line.

    [-k | --keep]       Copy columns from input to output file, then append taxonomy as new column.

    [-n | --nucleotide] Query IDs are nucleotide [default].

    [-o | --output]     Filename of output file.

    [-p | --protein]    Query IDs are protein.

    [-s | --strip]      Strip version from input acession IDs (ie. everything after .)

  

データベースの準備

taxdumpと.accession2taxid をダウンロードする。

ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/

f:id:kazumaxneo:20200908134727p:plain

1、/pub/taxonomy/accession2taxid/から次のファイルをダウンロードする。

nucleotide

  • nucl_gb.accession2taxid
  • nucl_wgs.accession2taxid
  • dead_nucl.accession2taxid
  • dead_wgs.accession2taxid

protein

  • prot.accession2taxid
  • dead_prot.accession2taxid 

2、1つ上の階層にはtaxdumpファイルもあるので、こちらもダウンロードする。

taxdumpを解凍したところ。解凍したフォルダのnodes.dmp、names.dmp、gi_taxid_nucl.dmp、gi_taxid_prot.dmpが必要。

f:id:kazumaxneo:20200908141051p:plain

 

3、ダウンロードしたファイルをマージしてソートする。

nucleptide ( 数十GBあるので注意)

cat nucl_gb.accession2taxid \
nucl_wgs.accession2taxid \
dead_nucl.accession2taxid \
dead_wgs.accession2taxid \
dead_nucl.accession2taxid dead_wgs.accession2taxid| sort > acc2tax_nucl_all.txt

上記のうち、nucl_gss.accession2taxidとnucl_est.accession2taxidはNucleotide database に統合が進んでいて(*1)、現在NCBIFTPサイトで利用できなくなっている。

protein

cat prot.accession2taxid dead_prot.accession2taxid | sort > acc2tax_prot_all.txt

解凍したtaxdump/に上記のファイルを移動させる。

mv acc2tax_nucl_all.txt taxdump/
mv acc2tax_prot_all.txt taxdump/

 

実行方法

 nucleotideのgenbank accesion IDテキストを指定する。

acc2tax -a genbankID.txt -c 1 -d taxdump/ -o putput

 

引用

 GitHub - richardmleggett/acc2tax: Tool for quick offline batch conversion of Genbank IDs or accessions to taxonomy strings

 

1、Upcoming Changes to EST and GSS Databases

https://ncbiinsights.ncbi.nlm.nih.gov/2018/07/30/upcoming-changes-est-gss-databases/

 

2、new NCBI taxonomy repository

https://github.com/DerrickWood/kraken2/issues/101

 

参考

NCBI taxonomy databases

https://www.uppmax.uu.se/resurser/databases/ncbi-taxonomy-databases/

(ESTとGSSレコードの廃止)