macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

fastqのクオリティ分析を行う Quack

 

 ハイスループットDNAシーケンシングツールによって生成されたデータの品質は、そのデータが生物学的発見にどの程度役立つかを判断するために迅速に評価されなければならない。データセットのサイズがますます大きくなり、迅速な品質評価が重要になっているため、シーケンシングデータを解析するツールは、解釈しやすいグラフィックを迅速に作成する必要がある。Quackは、シーケンス技術に依存しない方法で、FASTQファイルから情報量の多いビジュアライゼーションを、他の一般的に利用可能な品質保証ツールをはるかに上回る速度で生成することで、これらの問題に対処する。

 

インストール

リリースからlinux向けバイナリをダウンロードしてテストした。

 依存

  • zlib
  • klib (pulled by the submodule update below)

Github

git clone https://github.com/IGBB/quack.git
cd quack/
make && make test

./linux.quack

$ ./linux.quack 

Usage: quack [OPTION...]

quack -- A FASTQ quality assessment tool

 

  -1, --forward file.1.fq.gz      Forward strand

  -2, --reverse file.2.fq.gz      Reverse strand

  -a, --adapters adapters.fa.gz   (Optional) Adapters file

  -n, --name NAME                 (Optional) Display in output

  -u, --unpaired unpaired.fq.gz   Data (only use with -u)

  -?, --help                      Give this help list

      --usage                     (use alone)

  -V, --version                   Print program version (use alone)

Report bugs to <thrash@igbb.msstate.edu>.

Usage: quack [OPTION...]

Try `quack --help' or `quack --usage' for more information.

 

 

実行方法

fastqを指定する。アダプターのFASTAファイルがあるなら-aで指定する。

#ペアエンド
quack -1 input_1.fq.gz -2 input_2.fq.gz -n sample_name > output.svg

#シングル
quack -u input.fq.gz > output.svg

f:id:kazumaxneo:20200915001706p:plain



一番上のパネル - 配列の各列に含まれる各ヌクレオチドの割合

f:id:kazumaxneo:20200915002100p:plain

 

中央のパネル - 配列のポジションごとのクオリティ分布を示すヒートマップと、配列全体のクオリティスコアの平均値を示すライン

f:id:kazumaxneo:20200915002529p:plain
中央両サイドのパネルは中央のパネルのクオリティ割合を示すスコア分布グラフ。グラフの左が100%、右が0%。一番下のパネルは側面のパネルはリードの長さの分布示すグラフ。

 

引用

Quack: A quality assurance tool for high throughput sequence data

Adam Thrash, Mark Arick 2nd, Daniel G Peterson

Anal Biochem. 2018 May 1;548:38-43