ハイスループットDNAシーケンシングツールによって生成されたデータの品質は、そのデータが生物学的発見にどの程度役立つかを判断するために迅速に評価されなければならない。データセットのサイズがますます大きくなり、迅速な品質評価が重要になっているため、シーケンシングデータを解析するツールは、解釈しやすいグラフィックを迅速に作成する必要がある。Quackは、シーケンス技術に依存しない方法で、FASTQファイルから情報量の多いビジュアライゼーションを、他の一般的に利用可能な品質保証ツールをはるかに上回る速度で生成することで、これらの問題に対処する。
インストール
リリースからlinux向けバイナリをダウンロードしてテストした。
- zlib
- klib (pulled by the submodule update below)
git clone https://github.com/IGBB/quack.git
cd quack/
make && make test
> ./linux.quack
$ ./linux.quack
Usage: quack [OPTION...]
quack -- A FASTQ quality assessment tool
-1, --forward file.1.fq.gz Forward strand
-2, --reverse file.2.fq.gz Reverse strand
-a, --adapters adapters.fa.gz (Optional) Adapters file
-n, --name NAME (Optional) Display in output
-u, --unpaired unpaired.fq.gz Data (only use with -u)
-?, --help Give this help list
--usage (use alone)
-V, --version Print program version (use alone)
Report bugs to <thrash@igbb.msstate.edu>.
Usage: quack [OPTION...]
Try `quack --help' or `quack --usage' for more information.
実行方法
fastqを指定する。アダプターのFASTAファイルがあるなら-aで指定する。
#ペアエンド
quack -1 input_1.fq.gz -2 input_2.fq.gz -n sample_name > output.svg
#シングル
quack -u input.fq.gz > output.svg
一番上のパネル - 配列の各列に含まれる各ヌクレオチドの割合
中央のパネル - 配列のポジションごとのクオリティ分布を示すヒートマップと、配列全体のクオリティスコアの平均値を示すライン
中央両サイドのパネルは中央のパネルのクオリティ割合を示すスコア分布グラフ。グラフの左が100%、右が0%。一番下のパネルは側面のパネルはリードの長さの分布示すグラフ。
引用
Quack: A quality assurance tool for high throughput sequence data
Adam Thrash, Mark Arick 2nd, Daniel G Peterson
Anal Biochem. 2018 May 1;548:38-43