macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アセンブリの簡単なstatisticsを出力する assembly-stats

 

assembly-statsはsanger-pathogensのGithubレポジトリで公開されているアセンブリ配列の簡単な要約統計を出力するツール。

 

インストール

mac os10.13でテストした。

本体 Github

#conda
mamba install -c bioconda assembly-stats -y

 

ラン

fastaファイルを指定する。

assembly-stats contig.fa

 テストラン結果

assembly-stats scaffolds.fasta 

stats for scaffolds.fasta

sum = 3607906, n = 143, ave = 27328.01, largest = 352340

N50 = 150563, n = 9

N60 = 104976, n = 12

N70 = 89580, n = 16

N80 = 62878, n = 21

N90 = 41202, n = 28

N100 = 128, n = 143

N_count = 99

Gaps = 1

 

BBtools(紹介)でも似たことができる。

#contig.fasstaを分析
stats.sh in=contigs.fa gc=gc.txt gcformat=4

出力

A C G T N IUPAC Other GC GC_stdev

0.2346 0.2667 0.2662 0.2324 0.0000 0.0000 0.0000 0.5329 0.1351

 

Main genome scaffold total:         566002

Main genome contig total:           566002

Main genome scaffold sequence total: 1013.084 MB

Main genome contig sequence total:  1013.084 MB  0.000% gap

Main genome scaffold N/L50:         9339/11.986 KB

Main genome contig N/L50:           9339/11.986 KB

Main genome scaffold N/L90:         295025/494

Main genome contig N/L90:           295025/494

Max scaffold length:                2.145 MB

Max contig length:                  2.145 MB

Number of scaffolds > 50 KB:        2620

% main genome in scaffolds > 50 KB: 34.55%

 

 

Minimum Number        Number        Total         Total         Scaffold

Scaffold of            of            Scaffold      Contig        Contig  

Length  Scaffolds     Contigs       Length        Length        Coverage

-------- -------------- -------------- -------------- -------------- --------

    All        566,002       566,002 1,013,084,284 1,013,084,284 100.00%

    100        566,002       566,002 1,013,084,284 1,013,084,284 100.00%

    250        558,446       558,446 1,011,300,873 1,011,300,873 100.00%

    500        290,727       290,727   909,666,065   909,666,065 100.00%

   1 KB        120,141       120,141   793,125,276   793,125,276 100.00%

 2.5 KB         44,480         44,480   679,593,767   679,593,767 100.00%

   5 KB         22,110         22,110   601,952,978   601,952,978 100.00%

  10 KB         11,113         11,113   525,951,129   525,951,129 100.00%

  25 KB          4,943         4,943   431,947,925   431,947,925 100.00%

  50 KB          2,620         2,620   350,060,308   350,060,308 100.00%

 100 KB          1,204         1,204   250,817,086   250,817,086 100.00%

 250 KB            255           255   109,046,091   109,046,091 100.00%

 500 KB             59             59     44,100,954     44,100,954 100.00%

   1 MB              8             8     10,056,603     10,056,603 100.00%

 

 

ミスアセンブリなど詳細を調べたいならQuestを使ってください。

 

引用

GitHub - sanger-pathogens/assembly-stats: Get assembly statistics from FASTA and FASTQ files

 

参考

https://www.biostars.org/p/237591/

 

GenomeやRNA-Seq assemblyの結果を確認する: assembly-statsについて - NGSデータ解析まとめ