タイトルの通りのツール。
インストール
macos標準のclangでビルドした。
git clone https://github.com/richardmleggett/acc2tax.git
cd acc2tax/
cc -o acc2tax acc2tax.c
#パスの通ったディレクトリにコピー
cp acc2tax /usr/locasl/bin/
> acc2tax -h
$ acc2tax -h
acc2tax v0.6
Bugs/comments: richard.leggett@tgac.ac.uk
Provide batch taxonomy information for Genbank IDs or Accessions.
Options:
[-h | --help] This help screen.
[-a | --accession] Query is accession IDs [default].
[-c | --column] 1-based column number of ID in input file (default 1).
[-d | --database] Directory containing NCBI taxonomy files.
[-e | --entries] Max GI entries (default 1050000000).
[-g | --gi] Query is Genbank IDs.
[-i | --input] File of IDs (GI or Accession), one per line.
[-k | --keep] Copy columns from input to output file, then append taxonomy as new column.
[-n | --nucleotide] Query IDs are nucleotide [default].
[-o | --output] Filename of output file.
[-p | --protein] Query IDs are protein.
[-s | --strip] Strip version from input acession IDs (ie. everything after .)
データベースの準備
taxdumpと.accession2taxid をダウンロードする。
ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/
1、/pub/taxonomy/accession2taxid/から次のファイルをダウンロードする。
nucleotide
- nucl_gb.accession2taxid
- nucl_wgs.accession2taxid
- dead_nucl.accession2taxid
- dead_wgs.accession2taxid
protein
- prot.accession2taxid
- dead_prot.accession2taxid
2、1つ上の階層にはtaxdumpファイルもあるので、こちらもダウンロードする。
taxdumpを解凍したところ。解凍したフォルダのnodes.dmp、names.dmp、gi_taxid_nucl.dmp、gi_taxid_prot.dmpが必要。
3、ダウンロードしたファイルをマージしてソートする。
nucleptide ( 数十GBあるので注意)
cat nucl_gb.accession2taxid \
nucl_wgs.accession2taxid \
dead_nucl.accession2taxid \
dead_wgs.accession2taxid \
dead_nucl.accession2taxid dead_wgs.accession2taxid| sort > acc2tax_nucl_all.txt
上記のうち、nucl_gss.accession2taxidとnucl_est.accession2taxidはNucleotide database に統合が進んでいて(*1)、現在NCBIのFTPサイトで利用できなくなっている。
protein
cat prot.accession2taxid dead_prot.accession2taxid | sort > acc2tax_prot_all.txt
解凍したtaxdump/に上記のファイルを移動させる。
mv acc2tax_nucl_all.txt taxdump/
mv acc2tax_prot_all.txt taxdump/
実行方法
nucleotideのgenbank accesion IDテキストを指定する。
acc2tax -a genbankID.txt -c 1 -d taxdump/ -o putput
引用
1、Upcoming Changes to EST and GSS Databases
https://ncbiinsights.ncbi.nlm.nih.gov/2018/07/30/upcoming-changes-est-gss-databases/
2、new NCBI taxonomy repository
https://github.com/DerrickWood/kraken2/issues/101
参考
NCBI taxonomy databases
https://www.uppmax.uu.se/resurser/databases/ncbi-taxonomy-databases/
(ESTとGSSレコードの廃止)