CheckQCはイルミナのdemultiplexした後のランフォルダを分析し、これ以上の解析に意味が必要か、意味がないか素早く調べることができるツール。基準を満たさないメトリックについての警告を返し、ランパフォーマンスを迅速に評価する。既存のワークフローに容易に組み込むことができるよう設計されている。
イルミナの以下のマシンがサポートされている。
- HiSeqX
- HiSeq2500
- MiSeq
- NovaSeq
公式ページ
http://opensource.scilifelab.se/projects/checkqc/
インストール
依存
- Python 3.5 (or higher to run)
例えばpyenvでpythonのバージョン管理をしているなら、pyenv install 3.5.0で3.5.0をインストール。そのあとpyenv global 3.5.0で3.5.0に切り替え。
pipで本体はインストールできる。
pip install checkqc
> checkqc --help
$ checkqc --help
Usage: checkqc [OPTIONS] RUNFOLDER
checkQC is a command line utility designed to quickly gather and assess
quality control metrics from an Illumina sequencing run. It is highly
customizable and which quality controls modules should be run for a
particular run type should be specified in the provided configuration
file.
Options:
--config PATH Path to the checkQC configuration file
--json Print the results of the run as json to stdout
--version Show the version and exit.
--help Show this message and exit.
ラン
デフォルトのパラメータで分析するなら、イルミナシーケンサーのランフォルダを指定するだけで実行できる。
checkqc <RUNFOLDER>
github(リンク)からテストデータをダウンロードし、ランしてみる。
170726_D00118_0303_BCB1TVANXX/の出力ディレクトリ。以下のようなファイル構成になっている。
分析する。
checkqc tests/resources/170726_D00118_0303_BCB1TVANXX/
$ checkqc tests/resources/170726_D00118_0303_BCB1TVANXX/
INFO ------------------------
INFO Starting checkQC (1.3.0)
INFO ------------------------
INFO Runfolder is: tests/resources/170726_D00118_0303_BCB1TVANXX/
INFO No config file specified, using default config from /Users/user/.pyenv/versions/3.5.1/lib/python3.5/site-packages/checkQC/default_config/config.yaml.
INFO Run summary
INFO -----------
INFO Instrument and reagent version: hiseq2500_rapidhighoutput_v4
INFO Read length: 125-125
INFO Enabled handlers and their config values were:
INFO ClusterPFHandler Error=unknown Warning=180
INFO Q30Handler Error=unknown Warning=80
INFO ErrorRateHandler Error=unknown Warning=2
INFO ReadsPerSampleHandler Error=90 Warning=unknown
INFO UndeterminedPercentageHandler Error=10 Warning=unknown
WARNING QC warning: Cluster PF was to low on lane 1, it was: 117.93 M
WARNING QC warning: Cluster PF was to low on lane 7, it was: 122.26 M
WARNING QC warning: Cluster PF was to low on lane 8, it was: 177.02 M
ERROR Fatal QC error: Number of reads for sample Sample_pq-27 was too low on lane 7, it was: 6.893 M
ERROR Fatal QC error: Number of reads for sample Sample_pq-28 was too low on lane 7, it was: 7.104 M
ERROR Finished with fatal qc errors and will exit with non-zero exit status.
シーケンサーの種類やリード長がまず表示される。このランディレクトリは、lane1、7、8のクラスターが非常に少ないという警告が出ている。さらにリード数が極端に低いサンプルのQC errorが出ている。
デフォルトのconfigファイル以外を使う場合は、--configで指定する。そのほか、webでも動作するように設計されている。詳細はgithubのページで確認してください。
引用
CheckQC: Quick quality control of Illumina sequencing runs
Matilda Åslin1, Monika Brandt1, and Johan Dahlberg
The Journal of Open Source Software 3(22):556 · February 2018