macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ナノポアのロングリードの長さやクオリティを分析するnanostatとNanoPlot

2019 5/19 インストール追記

2019 9/7コメント追加2020 1/4 インストール手順仮想環境に導入するように修正

2021 9/17 追記

2022/04/20 インストール追記 (python=3.5 => python=3.8 )

 

ショートリード用のクオリティ分析ツールはナノポアのロングリードでは機能しないので、専用のツールが必要である。nanostatとNanoPlotはWouter De CosterさんがGithubで公開しているナノポアのロングリード分析ツール。クオリティや長さの分布を調べる時の重宝する。

 

ブログ

Example gallery of NanoPlot

NanoPlotはwebでも使える。

http://nanoplot.bioinf.be

 

インストール

依存

Github

mamba create -n nanostat -y python=3.8
conda activate nanostat
#nanostat
mamba install -c bioconda nanostat -y
#nanoplot
mamba install -c bioconda nanoplot -y

#pip
pip install nanoplot nanostat

 

ラン

リードのstatistics

1Dリード。

NanoStat --fastq input.fq -t 1
  • --fastq FASTQ Data is in fastq format.
  • -t  --threads THREADS Max number of threads to be used by the script

defaultでは以下のようなsummaryが出力される。 

user$ cat NanoStats.txt 

Number of reads: 43463

Total bases: 209281808

Median read length: 2914.0

Mean read length: 4815.17

Readlength N50: 9960

 

Top 5 read lengths and their average basecall quality score:

Length: 701071bp Q: 7.13

Length: 92467bp Q: 5.63

Length: 88473bp Q: 7.06

Length: 80054bp Q: 5.21

Length: 73641bp Q: 7.33

 

Top 5 average basecall quality scores and their read lengths:

Length: 2750bp Q: 13.35

Length: 5842bp Q: 13.32

Length: 654bp Q: 13.02

Length: 4680bp Q: 12.94

Length: 3327bp Q: 12.9

 

Number of reads and fraction above quality cutoffs:

Q5: 40073 92.2%

Q10: 13842 31.85%

Q15: 0 0.0%

 

 Nanoplotでクオリティとリード長の分布をグラフ出力する。

NanoPlot --fastq merged.fastq --loglength -t 8 -o qc_result_dir

Required

  • --fastq FASTQ Data presented is in fastq format exported from fast5 files by e.g. poretools.
  • --fastq_rich FASTQ_rich Data presented is in fastq format generated by Albacore or MinKNOW with additional information concerning channel and time.
  • --bam BAM Data presented as a sorted bam file.
  • --summary SUMMARY Data is a summary file generated by albacore.

Arguments for optional filtering:

  • --readtype Specify read type to extract from summary file Options: 1D (default), 2D or 1D2
  • --maxlength MAXLENGTH Drop reads longer than length N.
  • --loglength Logarithmic scaling of lengths in plots.

General arguments:

  • -t  --threads THREADS Max number of threads to be used by the script

nanostat、NanoPlot共に他にもいくつかオプションがあります。詳細はGitのページで確認してください。

 

 

出力例

f:id:kazumaxneo:20171007144704j:plain

f:id:kazumaxneo:20171007144744j:plain

f:id:kazumaxneo:20171007144710j:plain

f:id:kazumaxneo:20171007144713j:plain

f:id:kazumaxneo:20171007144716j:plain

 

追記

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6053456/ の図2を見ると、リード両端のクオリティが低い。アプリケーションによっては、このあたりの配列は強制トリミングしてもいいかもしれない。

 

2021 9/17

出力される図のグラフィックが変わっています。より見やすくなっていますね。

f:id:kazumaxneo:20210918214327p:plain

 

引用

NanoPack: visualizing and processing long read sequencing data.

De Coster W, D'Hert S, Schultz DT, Cruts M, Van Broeckhoven C

Bioinformatics. 2018 Mar 14.

 

 関連

 

こちらも確認して下さい。