assembly-statsはsanger-pathogensのGithubレポジトリで公開されているアセンブリ配列の簡単な要約統計を出力するツール。
インストール
mac os10.13でテストした。
本体 Github
#conda
mamba install -c bioconda assembly-stats -y
ラン
fastaファイルを指定する。
assembly-stats contig.fa
テストラン結果
assembly-stats scaffolds.fasta
stats for scaffolds.fasta
sum = 3607906, n = 143, ave = 27328.01, largest = 352340
N50 = 150563, n = 9
N60 = 104976, n = 12
N70 = 89580, n = 16
N80 = 62878, n = 21
N90 = 41202, n = 28
N100 = 128, n = 143
N_count = 99
Gaps = 1
BBtools(紹介)でも似たことができる。
#contig.fasstaを分析
stats.sh in=contigs.fa gc=gc.txt gcformat=4
出力
A C G T N IUPAC Other GC GC_stdev
0.2346 0.2667 0.2662 0.2324 0.0000 0.0000 0.0000 0.5329 0.1351
Main genome scaffold total: 566002
Main genome contig total: 566002
Main genome scaffold sequence total: 1013.084 MB
Main genome contig sequence total: 1013.084 MB 0.000% gap
Main genome scaffold N/L50: 9339/11.986 KB
Main genome contig N/L50: 9339/11.986 KB
Main genome scaffold N/L90: 295025/494
Main genome contig N/L90: 295025/494
Max scaffold length: 2.145 MB
Max contig length: 2.145 MB
Number of scaffolds > 50 KB: 2620
% main genome in scaffolds > 50 KB: 34.55%
Minimum Number Number Total Total Scaffold
Scaffold of of Scaffold Contig Contig
Length Scaffolds Contigs Length Length Coverage
-------- -------------- -------------- -------------- -------------- --------
All 566,002 566,002 1,013,084,284 1,013,084,284 100.00%
100 566,002 566,002 1,013,084,284 1,013,084,284 100.00%
250 558,446 558,446 1,011,300,873 1,011,300,873 100.00%
500 290,727 290,727 909,666,065 909,666,065 100.00%
1 KB 120,141 120,141 793,125,276 793,125,276 100.00%
2.5 KB 44,480 44,480 679,593,767 679,593,767 100.00%
5 KB 22,110 22,110 601,952,978 601,952,978 100.00%
10 KB 11,113 11,113 525,951,129 525,951,129 100.00%
25 KB 4,943 4,943 431,947,925 431,947,925 100.00%
50 KB 2,620 2,620 350,060,308 350,060,308 100.00%
100 KB 1,204 1,204 250,817,086 250,817,086 100.00%
250 KB 255 255 109,046,091 109,046,091 100.00%
500 KB 59 59 44,100,954 44,100,954 100.00%
1 MB 8 8 10,056,603 10,056,603 100.00%
ミスアセンブリなど詳細を調べたいならQuestを使ってください。
引用
GitHub - sanger-pathogens/assembly-stats: Get assembly statistics from FASTA and FASTQ files
参考
https://www.biostars.org/p/237591/
GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて - NGSデータ解析まとめ