2020 7/19 追記
ToulligQCはPythonで書かれたEcole Normale Superieure の生物学研究所(IBENS)のゲノム施設によって開発されたプログラムである。このプログラムは、オックスフォードナノポアのQC分析を専門としている。 さらに、DNA-SeqとともにRNA-Seqにも適応しており、1D squareのランと互換性がある。ToulligQCは部分的に要約ファイルとオックスフォードナノポアのベースコーラーであるAlbacoreによってベースコールプロセス間に生成されるpipieline.logファイルに依存している。ランには、また、単一のFAST5ファイル(フローセルIDと実行日を捉えるため)とAlbacoreが出力したFASTQファイル(シーケンス統計を計算するため)を必要とする。 ToulligQCは、使用されているバーコードを記述するsamplesheet.csvを使用して、バーコードサンプルを考慮に入れることができる。
ToulligQCは異なるファイルフォーマットを扱える:gz、tar.gz、bz2、tar.bz2、FASTQとFAST5。 ToulligQCの出力は、一連のグラフ、txt形式の統計ファイル、およびHTMLレポートを作成する。
2021 5/6
2/3 ToulligQC 2 => is fast (few minutes on a laptop) =>supports all versions of Guppy =>can be used with all the @nanopore sequencing devices #MinION #GridION #PrometION => compatible with both 1D and 1D2 chemistries pic.twitter.com/2Zxu9xEJQq
— Génomique ENS (@Genomique_ENS) 2021年5月6日
インストール
依存
- matplotlib
- h5py
- pandas
- seaborn
- numpy
- plotly
本体 Github
conda create -n toulligqc -y
conda activate toulligqc
conda install toulligqc
#pip (ここではcondaの仮想環境に入れる)
conda activate
conda install pip
pip install toulligqc
または
git clone https://github.com/GenomicParisCentre/toulligQC.git
cd toulligqc && python3 setup.py build install
> toulligqc -h
u$ toulligqc -h
usage: toulligqc [-h] [-c FILE] [-n REPORT_NAME] [-f FAST5_SOURCE]
[-a SEQUENCING_SUMMARY_SOURCE]
[-d SEQUENCING_SUMMARY_1DSQR_SOURCE]
[-p ALBACORE_PIPELINE_SOURCE] [-q FASTQ_SOURCE]
[-t TELEMETRY_SOURCE] [-o OUTPUT] [-b] [-s SAMPLE_SHEET_FILE]
[-l BARCODES] [--quiet] [--version]
optional arguments:
-h, --help show this help message and exit
-c FILE, --conf-file FILE
Specify config file
-n REPORT_NAME, --report-name REPORT_NAME
Report name
-f FAST5_SOURCE, --fast5-source FAST5_SOURCE
Fast5 file source
-a SEQUENCING_SUMMARY_SOURCE, --sequencing-summary-source SEQUENCING_SUMMARY_SOURCE, --albacore-summary-source SEQUENCING_SUMMARY_SOURCE
Basecaller sequencing summary source
-d SEQUENCING_SUMMARY_1DSQR_SOURCE, --sequencing-summary-1dsqr-source SEQUENCING_SUMMARY_1DSQR_SOURCE, --albacore-1dsqr-summary-source SEQUENCING_SUMMARY_1DSQR_SOURCE
Basecaller 1dsq summary source
-p ALBACORE_PIPELINE_SOURCE, --albacore-pipeline-source ALBACORE_PIPELINE_SOURCE
Albacore pipeline log source
-q FASTQ_SOURCE, --fastq-source FASTQ_SOURCE
Fastq file source
-t TELEMETRY_SOURCE, --telemetry-source TELEMETRY_SOURCE
Telemetry file source
-o OUTPUT, --output OUTPUT
Output directory
-b, --barcoding Barcode usage
-s SAMPLE_SHEET_FILE, --samplesheet-file SAMPLE_SHEET_FILE
Path to sample sheet file
-l BARCODES, --barcodes BARCODES
Coma separated barcode list
--quiet Quiet mode
--version show program's version number and exit
> toulligqc --version
$ toulligqc --version
1.3
またはオーサーらが用意してくれているdockerイメージを使う。
docker pull genomicpariscentre/toulligqc:latest
テストラン
wget http://outils.genomique.biologie.ens.fr/leburon/downloads/toulligqc-example/toulligqc_demo_data.tar.bz2
tar -xzf toulligqc_demo_data.tar.bz2
cd toulligqc_demo_data
#test run
./run-toulligqc.sh
#test run; docker version (docker imageがダウンロードされるので注意)
./run-toulligqc-with-docker.sh
出力
report.html
実行方法
python3 toulligqc.py --report-name FAF0256 \
--fast5-source /fast5_dir
--albacore-summary-source sequencing_summary.txt \
--albacore-pipeline-source albacore/pipeline.log \
--fastq-source /fastq \
--output /output_dir
バーコードつきサンプル
python3 toulligqc.py --report-name FAF0256 \
--barcoding \
--fast5-source /fast5_dir
--albacore-summary-source sequencing_summary.txt \
--albacore-pipeline-source albacore/pipeline.log \
--fastq-source /fastq \
--output /output_dir
--sample-sheet-source /sample/
python3.6.7ではエラーが起きる。
=> 最新の1.3を入れるとランできるようになりました。
引用
GitHub - GenomicParisCentre/toulligQC: A post sequencing QC tool for Oxford Nanopore sequencers
関連