SeqstatsはHeng Li(wiki)の優れたklibライブラリを使い、Cで書かれたツール。 シーケンスリード、リファレンスゲノムおよびアセンブリファイルの一般的な要約統計情報を提供する。 gzipまたはプレーンのfastqおよびfastaファイルを読み込むことができる。
インストール
git clone --recursive https://github.com/clwgg/seqstats
cd seqstats
make
> ./seqstats
$ ./seqstats
Usage: ./seqstats <in.fasta|in.fastq>
ラン
シングルエンドfastqを分析。
seqstats input.fq.gz
ペアエンド fastqを分析。
cat pair1.fq.gz pair2.fq.gz > seqstats -
全クロモソームのFASTAを分析。
cat chr*.fa > seqstats -
fastq分析結果。
Total n: 1057350
Total seq: 289337500 bp
Avg. seq: 250.00 bp
Median seq: 250.00 bp
N 50: 250 bp
Min seq: 250 bp
Max seq: 250 bp
リード数(contig数)、トータルサイズなどが出力される。
引用
https://github.com/clwgg/seqstats