macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ナノポアのロングリードのQCツール ToulligQC

 

 ToulligQCはPythonで書かれたEcole Normale Superieure の生物学研究所(IBENS)のゲノム施設によって開発されたプログラムである。このプログラムは、オックスフォードナノポアのQC分析を専門としている。 さらに、DNA-SeqとともにRNA-Seqにも適応しており、1D squareのランと互換性がある。ToulligQCは部分的に要約ファイルとオックスフォードナノポアのベースコーラーであるAlbacoreによってベースコールプロセス間に生成されるpipieline.logファイルに依存している。ランには、また、単一のFAST5ファイル(フローセルIDと実行日を捉えるため)とAlbacoreが出力したFASTQファイル(シーケンス統計を計算するため)を必要とする。 ToulligQCは、使用されているバーコードを記述するsamplesheet.csvを使用して、バーコードサンプルを考慮に入れることができる。

 ToulligQCは異なるファイルフォーマットを扱える:gz、tar.gz、bz2、tar.bz2、FASTQとFAST5。 ToulligQCの出力は、一連のグラフ、txt形式の統計ファイル、およびHTMLレポートを作成する。

 

インストール

依存

  • matplotlib
  • h5py
  • pandas
  • seaborn
  • numpy
  • plotly

本体 Github

pip3 install toulligqc

または
git clone https://github.com/GenomicParisCentre/toulligQC.git
cd toulligqc && python3 setup.py build install

> toulligqc -h

$ toulligqc -h

usage: toulligqc [-h] [-c FILE] [-n REPORT_NAME] [-f FAST5_SOURCE]

                 [-a ALBACORE_SUMMARY_SOURCE]

                 [-d ALBACORE_1DSQR_SUMMARY_SOURCE]

                 [-p ALBACORE_PIPELINE_SOURCE] [-q FASTQ_SOURCE] [-o OUTPUT]

                 [-s SAMPLE_SHEET_FILE] [-b] [--quiet] [--version]

 

optional arguments:

  -h, --help            show this help message and exit

  -c FILE, --conf-file FILE

                        Specify config file

  -n REPORT_NAME, --report-name REPORT_NAME

                        Report name

  -f FAST5_SOURCE, --fast5-source FAST5_SOURCE

                        Fast5 file source

  -a ALBACORE_SUMMARY_SOURCE, --albacore-summary-source ALBACORE_SUMMARY_SOURCE

                        Albacore summary source

  -d ALBACORE_1DSQR_SUMMARY_SOURCE, --albacore-1dsqr-summary-source ALBACORE_1DSQR_SUMMARY_SOURCE

                        Albacore 1dsq summary source

  -p ALBACORE_PIPELINE_SOURCE, --albacore-pipeline-source ALBACORE_PIPELINE_SOURCE

                        Albacore pipeline source

  -q FASTQ_SOURCE, --fastq-source FASTQ_SOURCE

                        Fastq file source

  -o OUTPUT, --output OUTPUT

                        Output directory

  -s SAMPLE_SHEET_FILE, --samplesheet-file SAMPLE_SHEET_FILE

                        Path to sample sheet file

  -b, --barcoding       Barcode usage

  --quiet               Quiet mode

  --version             show program's version number and exit

またはオーサーらが用意してくれているdockerイメージを使う。

docker pull genomicpariscentre/toulligqc:latest

 

実行方法

python3 toulligqc.py --report-name FAF0256 \
--fast5-source /fast5_dir
--albacore-summary-source sequencing_summary.txt \
--albacore-pipeline-source albacore/pipeline.log \
--fastq-source /fastq \
--output /output_dir

 

バーコードつきサンプル

python3 toulligqc.py --report-name FAF0256 \
--barcoding \
--fast5-source /fast5_dir
--albacore-summary-source sequencing_summary.txt \
--albacore-pipeline-source albacore/pipeline.log \
--fastq-source /fastq \
--output /output_dir
--sample-sheet-source /sample/

 

python3.6.7ではエラーが起きる。修正できましたら追記します。

引用

GitHub - GenomicParisCentre/toulligQC: A post sequencing QC tool for Oxford Nanopore sequencers

 

関連