macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

fasta、fastqの簡単なstatisticsを出す Seqstats

 

SeqstatsはHeng Li(wiki)の優れたklibライブラリを使い、Cで書かれたツール。 シーケンスリード、リファレンスゲノムおよびアセンブリファイルの一般的な要約統計情報を提供する。 gzipまたはプレーンのfastqおよびfastaファイルを読み込むことができる。

 

インストール

Github

git clone --recursive https://github.com/clwgg/seqstats 
cd seqstats
make 

./seqstats

$ ./seqstats 

Usage: ./seqstats <in.fasta|in.fastq>

 

ラン

シングルエンドfastqを分析。

seqstats input.fq.gz

ペアエンド fastqを分析。

cat pair1.fq.gz pair2.fq.gz > seqstats -

全クロモソームのFASTAを分析。 

cat chr*.fa > seqstats -

fastq分析結果。

Total n: 1057350

Total seq: 289337500 bp

Avg. seq: 250.00 bp

Median seq: 250.00 bp

N 50: 250 bp

Min seq: 250 bp

Max seq: 250 bp

リード数(contig数)、トータルサイズなどが出力される。

 

引用

https://github.com/clwgg/seqstats