macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ナノポアのロングリードのQCツール ToulligQC

2020 7/19 追記

 

 ToulligQCはPythonで書かれたEcole Normale Superieure の生物学研究所(IBENS)のゲノム施設によって開発されたプログラムである。このプログラムは、オックスフォードナノポアのQC分析を専門としている。 さらに、DNA-SeqとともにRNA-Seqにも適応しており、1D squareのランと互換性がある。ToulligQCは部分的に要約ファイルとオックスフォードナノポアのベースコーラーであるAlbacoreによってベースコールプロセス間に生成されるpipieline.logファイルに依存している。ランには、また、単一のFAST5ファイル(フローセルIDと実行日を捉えるため)とAlbacoreが出力したFASTQファイル(シーケンス統計を計算するため)を必要とする。 ToulligQCは、使用されているバーコードを記述するsamplesheet.csvを使用して、バーコードサンプルを考慮に入れることができる。

 ToulligQCは異なるファイルフォーマットを扱える:gz、tar.gz、bz2、tar.bz2、FASTQとFAST5。 ToulligQCの出力は、一連のグラフ、txt形式の統計ファイル、およびHTMLレポートを作成する。

 

インストール

依存

  • matplotlib
  • h5py
  • pandas
  • seaborn
  • numpy
  • plotly

本体 Github

conda create -n toulligqc -y 
conda activate toulligqc
conda install toulligqc

#pip (ここではcondaの仮想環境に入れる)
conda activate
conda install pip
pip install toulligqc

または
git clone https://github.com/GenomicParisCentre/toulligQC.git
cd toulligqc && python3 setup.py build install

> toulligqc -h

u$ toulligqc -h

usage: toulligqc [-h] [-c FILE] [-n REPORT_NAME] [-f FAST5_SOURCE]

                 [-a SEQUENCING_SUMMARY_SOURCE]

                 [-d SEQUENCING_SUMMARY_1DSQR_SOURCE]

                 [-p ALBACORE_PIPELINE_SOURCE] [-q FASTQ_SOURCE]

                 [-t TELEMETRY_SOURCE] [-o OUTPUT] [-b] [-s SAMPLE_SHEET_FILE]

                 [-l BARCODES] [--quiet] [--version]

 

optional arguments:

  -h, --help            show this help message and exit

  -c FILE, --conf-file FILE

                        Specify config file

  -n REPORT_NAME, --report-name REPORT_NAME

                        Report name

  -f FAST5_SOURCE, --fast5-source FAST5_SOURCE

                        Fast5 file source

  -a SEQUENCING_SUMMARY_SOURCE, --sequencing-summary-source SEQUENCING_SUMMARY_SOURCE, --albacore-summary-source SEQUENCING_SUMMARY_SOURCE

                        Basecaller sequencing summary source

  -d SEQUENCING_SUMMARY_1DSQR_SOURCE, --sequencing-summary-1dsqr-source SEQUENCING_SUMMARY_1DSQR_SOURCE, --albacore-1dsqr-summary-source SEQUENCING_SUMMARY_1DSQR_SOURCE

                        Basecaller 1dsq summary source

  -p ALBACORE_PIPELINE_SOURCE, --albacore-pipeline-source ALBACORE_PIPELINE_SOURCE

                        Albacore pipeline log source

  -q FASTQ_SOURCE, --fastq-source FASTQ_SOURCE

                        Fastq file source

  -t TELEMETRY_SOURCE, --telemetry-source TELEMETRY_SOURCE

                        Telemetry file source

  -o OUTPUT, --output OUTPUT

                        Output directory

  -b, --barcoding       Barcode usage

  -s SAMPLE_SHEET_FILE, --samplesheet-file SAMPLE_SHEET_FILE

                        Path to sample sheet file

  -l BARCODES, --barcodes BARCODES

                        Coma separated barcode list

  --quiet               Quiet mode

  --version             show program's version number and exit

toulligqc --version

$ toulligqc --version

1.3

 

またはオーサーらが用意してくれているdockerイメージを使う。

docker pull genomicpariscentre/toulligqc:latest

 

テストラン

wget http://outils.genomique.biologie.ens.fr/leburon/downloads/toulligqc-example/toulligqc_demo_data.tar.bz2
tar -xzf toulligqc_demo_data.tar.bz2
cd toulligqc_demo_data

#test run
./run-toulligqc.sh

#test run; docker version (docker imageがダウンロードされるので注意)
./run-toulligqc-with-docker.sh

出力 

 

f:id:kazumaxneo:20200719203644p:plain

report.html

f:id:kazumaxneo:20200719203828p:plain

f:id:kazumaxneo:20200719203832p:plain

f:id:kazumaxneo:20200719203842p:plain

f:id:kazumaxneo:20200719203848p:plain

f:id:kazumaxneo:20200719203858p:plain

f:id:kazumaxneo:20200719203905p:plain

f:id:kazumaxneo:20200719203909p:plain

f:id:kazumaxneo:20200719203921p:plain

f:id:kazumaxneo:20200719203924p:plain

 

 

実行方法

python3 toulligqc.py --report-name FAF0256 \
--fast5-source /fast5_dir
--albacore-summary-source sequencing_summary.txt \
--albacore-pipeline-source albacore/pipeline.log \
--fastq-source /fastq \
--output /output_dir

 

バーコードつきサンプル

python3 toulligqc.py --report-name FAF0256 \
--barcoding \
--fast5-source /fast5_dir
--albacore-summary-source sequencing_summary.txt \
--albacore-pipeline-source albacore/pipeline.log \
--fastq-source /fastq \
--output /output_dir
--sample-sheet-source /sample/

 

python3.6.7ではエラーが起きる。

=> 最新の1.3を入れるとランできるようになりました。

引用

GitHub - GenomicParisCentre/toulligQC: A post sequencing QC tool for Oxford Nanopore sequencers

 

関連