macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアゲノムの自動アセンブリ、アノテーション付けツール asqcan

 

 

asqcanは、細菌ゲノム配列の自動アセンブリ、品質管理、アノテーション付けのためのワークフローパイプラインである。 最新のバクテリアシーケンシングプロジェクトには、かなりの数の単離株が含まれる場合があり、必要なQCとアノテーションの作成、実行に時間がかかる場合がある。 asqcanパイプラインは、これを可能な限り自動化しようと試みる。 asqcanの現在の手順は次の通りである。

  1. FastQCによる生のシーケンシングリードの品質分析
  2. SPAdesを使用したゲノムアセンブリ
  3. quastを使用したアセンブリ品質分析
  4. blobtoolsによるアセンブリの汚染と品質の分析
  5. prokkaを使用したアセンブリアノテーション

 asqcanが完了すると、パイプライン各ステップの成功または失敗に関するレポートが生成される。 成功したステップは、後続で再実行はされない。

 

インストール

依存が多いため、dockerを使い、ubuntu18.04のpython2.7環境でテストした(ホストmacos10.14)。

依存

  • python (2.7)
  • GNU parallel (>=20170422)
  • FastQC (>=0.11.7)
  • spades (>=3.11.1)
  • quast (>=4.6.3)
  • blobtools (>=1.0)
  • blast (>=2.7.1)
  • prokka (>=1.13)

本体 Github

#condaで導入可能 (bioconda link)
conda create -n asqcan -c bioconda -y asqcan python=2.7
conda activate asqcan

#pipの場合
pip install git+https://github.com/bogemad/asqcan.git

asqcan -h

# asqcan -h

usage: asqcan [-h] -q READS_DIR -o OUTDIR [-b DB] [-t THREADS] [-m MEM] [-f]

              [--version] [-v]

 

asqcan - A combined pipeline for bacterial genome ASsembly, Quality Control,

and ANnotation.

 

required arguments:

  -q READS_DIR, --fastq-dir READS_DIR

                        Path to a directory with your interleaved fastq files.

  -o OUTDIR, --output-directory OUTDIR

                        Path to the output directory. A directory will be

                        created if one does not exist.

 

optional arguments:

  -h, --help            show this help message and exit

  -b DB, --blast_database DB

                        Path to the local nt blast database. This pipeline

                        does not require you to have a local copy of the nt

                        database but without it you will not be able to use

                        similarity data for blobtools. Similarity data adds

                        significantly to the blobplot and blobtools table

                        outputs of this pipeline. See https://blast.ncbi.nlm.n

                        ih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=

                        Download to install a local nt database.

  -t THREADS, --threads THREADS

                        Number of threads to use for multiprocessing.

  -m MEM, --max_memory MEM

                        Maximum amount of RAM to assign to the pipeline in GB

                        (Just the number).

  -f, --force           Overwrite files in the output directories.

  --version             show program's version number and exit

  -v, --verbose         Increase verbosity on command line output (n.b.

                        verbose output is always saved to asqcan.log in the

                        output directory).

 

 

実行方法

各菌のinterleave fastqを含むディレクトリと、準備したblastデータベースを指定する。blastデータベースを指定しない場合、local blastは実行されない。

asqcan -q fastq_dir/ -o output -b blast_database
  •  -q    Path to a directory with your interleaved fastq

 

引用

GitHub - bogemad/asqcan: Pipeline for bacterial genome assembly, quality control and annotation

 

blast databaesのダウンロード

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download

ダウンロードツール