macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

NCBIからバクテリアゲノムをダウンロードする

 

コンプリートなゲノムのダウンロード。

wget ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/bacteria/assembly_summary.txt 
awk -F '\t' '{if($12=="Complete Genome") print $20}' assembly_summary.txt > assembly_summary_complete_genomes.txt
mkdir bacteria_genome
for next in $(cat assembly_summary_complete_genomes.txt); do wget -P bacteria_genome "$next"/*genomic.fna.gz; done
gunzip bacteria_genome/*.gz

 

 blastデータベースの作成

cat *.fna > all_complete_bacteria.fna
makeblastdb -in all_complete_bacteria.fna -parse_seqids -dbtype nucl -title bacteria -out bacteria
  •  -parse_seqids Option to parse seqid for FASTA input if set, for all other input types seqids are parsed automatically
  • -title Title for BLAST database Default = input file name provided to -in argument

 

追記

kblinさんのツールも役立ちそうです。


 

またはEnsemblから全ゲノムをダウンロードする。

rsync -av rsync://ftp.ensembl.org/ensembl/pub/current_fasta/*/dna/*.dna.toplevel.fa.gz ./ 

 

 

 

引用

Biostar

https://www.biostars.org/p/61081/

Download All The Bacterial Genomes From Ncbi

 

https://nsaunders.wordpress.com/2013/05/28/how-to-bulk-retrieval-of-archaeal-genome-sequences-from-the-ncbi-ftp-site/

 

NCBI ftp genome download

http://www.metagenomics.wiki/tools/fastq/ncbi-ftp-genome-download