macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ナノポアのロングリードの長さやクオリティを分析するnanostatとNanoPlot

ショートリード用のクオリティ分析ツールはナノポアのロングリードでは機能しないので、専用のツールが必要である。nanostatとNanoPlotはWouter De CosterさんがGithubで公開しているナノポアのロングリード分析ツール。クオリティや長さの分布を調べる時の重宝する。

 

ブログ

Example gallery of NanoPlot

 

インストール

Github

nanostat 

GitHub - wdecoster/nanostat: Create statistic summary of an Oxford Nanopore read dataset

conda install -c bioconda nanostat 

NanoPlot

https://github.com/wdecoster/NanoPlot

conda install -c bioconda nanoplot

 

 

ラン

リードのstatistics。

1Dリード。

NanoStat --fastq input.fq -t 1
  • --fastq FASTQ Data is in fastq format.
  • -t  --threads THREADS Max number of threads to be used by the script

defaultでは以下のようなsummaryが出力される。 

user$ cat NanoStats.txt 

Number of reads: 43463

Total bases: 209281808

Median read length: 2914.0

Mean read length: 4815.17

Readlength N50: 9960

 

Top 5 read lengths and their average basecall quality score:

Length: 701071bp Q: 7.13

Length: 92467bp Q: 5.63

Length: 88473bp Q: 7.06

Length: 80054bp Q: 5.21

Length: 73641bp Q: 7.33

 

Top 5 average basecall quality scores and their read lengths:

Length: 2750bp Q: 13.35

Length: 5842bp Q: 13.32

Length: 654bp Q: 13.02

Length: 4680bp Q: 12.94

Length: 3327bp Q: 12.9

 

Number of reads and fraction above quality cutoffs:

Q5: 40073 92.2%

Q10: 13842 31.85%

Q15: 0 0.0%

 

 Nanoplotでクオリティとリード長の分布をグラフ出力する。

NanoPlot --fastq merged.fastq --loglength -t 8

Required

  • --fastq FASTQ Data presented is in fastq format exported from fast5 files by e.g. poretools.
  • --fastq_rich FASTQ_rich Data presented is in fastq format generated by Albacore or MinKNOW with additional information concerning channel and time.
  • --bam BAM Data presented as a sorted bam file.
  • --summary SUMMARY Data is a summary file generated by albacore.

Arguments for optional filtering:

  • --readtype Specify read type to extract from summary file Options: 1D (default), 2D or 1D2
  • --maxlength MAXLENGTH Drop reads longer than length N.
  • --loglength Logarithmic scaling of lengths in plots.

General arguments:

  • -t  --threads THREADS Max number of threads to be used by the script

nanostat、NanoPlot共に他にもいくつかオプションがあります。詳細はGitのページで確認してください。

 

 

リード長の分布、リード長とクオリティの2次元プロットなどが出力される。

f:id:kazumaxneo:20171007144704j:plain

f:id:kazumaxneo:20171007144744j:plain

f:id:kazumaxneo:20171007144710j:plain

f:id:kazumaxneo:20171007144713j:plain

f:id:kazumaxneo:20171007144716j:plain