asqcanは、細菌ゲノム配列の自動アセンブリ、品質管理、アノテーション付けのためのワークフローパイプラインである。 最新のバクテリアシーケンシングプロジェクトには、かなりの数の単離株が含まれる場合があり、必要なQCとアノテーションの作成、実行に時間がかかる場合がある。 asqcanパイプラインは、これを可能な限り自動化しようと試みる。 asqcanの現在の手順は次の通りである。
- FastQCによる生のシーケンシングリードの品質分析
- SPAdesを使用したゲノムアセンブリ
- quastを使用したアセンブリ品質分析
- blobtoolsによるアセンブリの汚染と品質の分析
- prokkaを使用したアセンブリのアノテーション
asqcanが完了すると、パイプライン各ステップの成功または失敗に関するレポートが生成される。 成功したステップは、後続で再実行はされない。
インストール
依存が多いため、dockerを使い、ubuntu18.04のpython2.7環境でテストした(ホストmacos10.14)。
依存
- python (2.7)
- GNU parallel (>=20170422)
- FastQC (>=0.11.7)
- spades (>=3.11.1)
- quast (>=4.6.3)
- blobtools (>=1.0)
- blast (>=2.7.1)
- prokka (>=1.13)
#condaで導入可能 (bioconda link)
conda create -n asqcan -c bioconda -y asqcan python=2.7
conda activate asqcan
#pipの場合
pip install git+https://github.com/bogemad/asqcan.git
> asqcan -h
# asqcan -h
usage: asqcan [-h] -q READS_DIR -o OUTDIR [-b DB] [-t THREADS] [-m MEM] [-f]
[--version] [-v]
asqcan - A combined pipeline for bacterial genome ASsembly, Quality Control,
and ANnotation.
required arguments:
-q READS_DIR, --fastq-dir READS_DIR
Path to a directory with your interleaved fastq files.
-o OUTDIR, --output-directory OUTDIR
Path to the output directory. A directory will be
created if one does not exist.
optional arguments:
-h, --help show this help message and exit
-b DB, --blast_database DB
Path to the local nt blast database. This pipeline
does not require you to have a local copy of the nt
database but without it you will not be able to use
similarity data for blobtools. Similarity data adds
significantly to the blobplot and blobtools table
outputs of this pipeline. See https://blast.ncbi.nlm.n
ih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=
Download to install a local nt database.
-t THREADS, --threads THREADS
Number of threads to use for multiprocessing.
-m MEM, --max_memory MEM
Maximum amount of RAM to assign to the pipeline in GB
(Just the number).
-f, --force Overwrite files in the output directories.
--version show program's version number and exit
-v, --verbose Increase verbosity on command line output (n.b.
verbose output is always saved to asqcan.log in the
output directory).
実行方法
各菌のinterleave fastqを含むディレクトリと、準備したblastデータベースを指定する。blastデータベースを指定しない場合、local blastは実行されない。
asqcan -q fastq_dir/ -o output -b blast_database
- -q Path to a directory with your interleaved fastq
引用
GitHub - bogemad/asqcan: Pipeline for bacterial genome assembly, quality control and annotation
blast databaesのダウンロード
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download
ダウンロードツール