macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

edirectとSRA toolsを組み合わせてBioprojectのfastqを全てダウンロードする

 

タイトルの通り、Bioprojectの全fastqをダウンロードする。

 

インストール

ubuntu18.04LTSでテストした。

Entrez Directのインストール

apt update && apt install -y ncbi-entrez-direct

#conda
conda install entrez-direct

fasterq-dumpは以前紹介しています。


実行方法

Entrez DirectとbashGNU bash)でリストを準備、fasterq-dumpでfastqダンロード、pigzでgzippingする。下記はilluminaのペアエンドfastqを想定。

#list
esearch -db sra -query PRJNA448065 | efetch --format runinfo | cut -d ',' -f 1 > temp

#先頭行を消す。"head -n -1"かgrepでSRRなど検索して保存
cat temp|grep SRR* > list

#whileでループ処理する。GNU parallelかxargsでfastq-dumpを並列化するか(OS間の違いに注意)、fasterq-dump使用。
cat list | while read line; do
fasterq-dump $line -O ./ -e 12 -p
pigz -p 16 ${line}_1.fastq
pigz -p 16 ${line}_2.fastq
done

細かいところは環境に合わせて変えてください。

 

最近発表されたgrabseqsを使うと、Bioprojectの全fastqをワンライナーでダウンロードできます。

引用

https://www.ncbi.nlm.nih.gov/books/NBK179288/

https://github.com/ncbi/sra-tools

  

 

参考

Biostar

https://www.biostars.org/p/111040/

https://www.biostars.org/p/294974/