タイトルの通り、Bioprojectの全fastqをダウンロードする。
インストール
ubuntu18.04LTSでテストした。
Entrez Directのインストール
apt update && apt install -y ncbi-entrez-direct
#conda
conda install entrez-direct
fasterq-dumpは以前紹介しています。
実行方法
Entrez Directとbash(GNU bash)でリストを準備、fasterq-dumpでfastqダンロード、pigzでgzippingする。下記はilluminaのペアエンドfastqを想定。
#list
esearch -db sra -query PRJNA448065 | efetch --format runinfo | cut -d ',' -f 1 > temp
#先頭行を消す。"head -n -1"かgrepでSRRなど検索して保存
cat temp|grep SRR* > list
#whileでループ処理する。GNU parallelかxargsでfastq-dumpを並列化するか(OS間の違いに注意)、fasterq-dump使用。
cat list | while read line; do
fasterq-dump $line -O ./ -e 12 -p
pigz -p 16 ${line}_1.fastq
pigz -p 16 ${line}_2.fastq
done
細かいところは環境に合わせて変えてください。
最近発表されたgrabseqsを使うと、Bioprojectの全fastqをワンライナーでダウンロードできます。
引用
https://www.ncbi.nlm.nih.gov/books/NBK179288/
https://github.com/ncbi/sra-tools
参考
Biostar
https://www.biostars.org/p/111040/
https://www.biostars.org/p/294974/