macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

イルミナのランディレクトリを分析する CheckQC

 

CheckQCはイルミナのdemultiplexした後のランフォルダを分析し、これ以上の解析に意味が必要か、意味がないか素早く調べることができるツール。基準を満たさないメトリックについての警告を返し、ランパフォーマンスを迅速に評価する。既存のワークフローに容易に組み込むことができるよう設計されている。

 

イルミナの以下のマシンがサポートされている。

  • HiSeqX
  • HiSeq2500
  • MiSeq
  • NovaSeq

 

公式ページ

http://opensource.scilifelab.se/projects/checkqc/

 

インストール

依存

  • Python 3.5 (or higher to run) 

例えばpyenvでpythonのバージョン管理をしているなら、pyenv install 3.5.0で3.5.0をインストール。そのあとpyenv global 3.5.0で3.5.0に切り替え。

 

pipで本体はインストールできる。

pip install checkqc

 > checkqc --help

$ checkqc --help

Usage: checkqc [OPTIONS] RUNFOLDER

 

  checkQC is a command line utility designed to quickly gather and assess

  quality control metrics from an Illumina sequencing run. It is highly

  customizable and which quality controls modules should be run for a

  particular run type should be specified in the provided configuration

  file.

 

Options:

  --config PATH  Path to the checkQC configuration file

  --json         Print the results of the run as json to stdout

  --version      Show the version and exit.

  --help         Show this message and exit.

 

 

ラン

デフォルトのパラメータで分析するなら、イルミナシーケンサーのランフォルダを指定するだけで実行できる。

checkqc <RUNFOLDER>

 

githubリンク)からテストデータをダウンロードし、ランしてみる。

170726_D00118_0303_BCB1TVANXX/の出力ディレクトリ。以下のようなファイル構成になっている。

f:id:kazumaxneo:20180218105025j:plain

分析する。

checkqc tests/resources/170726_D00118_0303_BCB1TVANXX/

$ checkqc tests/resources/170726_D00118_0303_BCB1TVANXX/

INFO     ------------------------

INFO     Starting checkQC (1.3.0)

INFO     ------------------------

INFO     Runfolder is: tests/resources/170726_D00118_0303_BCB1TVANXX/

INFO     No config file specified, using default config from /Users/user/.pyenv/versions/3.5.1/lib/python3.5/site-packages/checkQC/default_config/config.yaml.

INFO     Run summary

INFO     -----------

INFO     Instrument and reagent version: hiseq2500_rapidhighoutput_v4

INFO     Read length: 125-125

INFO     Enabled handlers and their config values were: 

INFO     ClusterPFHandler Error=unknown Warning=180

INFO     Q30Handler Error=unknown Warning=80

INFO     ErrorRateHandler Error=unknown Warning=2

INFO     ReadsPerSampleHandler Error=90 Warning=unknown

INFO     UndeterminedPercentageHandler Error=10 Warning=unknown

WARNING  QC warning: Cluster PF was to low on lane 1, it was: 117.93 M

WARNING  QC warning: Cluster PF was to low on lane 7, it was: 122.26 M

WARNING  QC warning: Cluster PF was to low on lane 8, it was: 177.02 M

ERROR    Fatal QC error: Number of reads for sample Sample_pq-27 was too low on lane 7, it was: 6.893 M

ERROR    Fatal QC error: Number of reads for sample Sample_pq-28 was too low on lane 7, it was: 7.104 M

ERROR    Finished with fatal qc errors and will exit with non-zero exit status.

シーケンサーの種類やリード長がまず表示される。このランディレクトリは、lane1、7、8のクラスターが非常に少ないという警告が出ている。さらにリード数が極端に低いサンプルのQC errorが出ている。

 

デフォルトのconfigファイル以外を使う場合は、--configで指定する。そのほか、webでも動作するように設計されている。詳細はgithubのページで確認してください。

 

引用

CheckQC: Quick quality control of Illumina sequencing runs

Matilda Åslin1, Monika Brandt1, and Johan Dahlberg

The Journal of Open Source Software 3(22):556 · February 2018