2019 5/19 インストール追記
2019 9/7コメント追加2020 1/4 インストール手順仮想環境に導入するように修正
2021 9/17 追記
2022/04/20 インストール追記 (python=3.5 => python=3.8 )
ショートリード用のクオリティ分析ツールはナノポアのロングリードでは機能しないので、専用のツールが必要である。nanostatとNanoPlotはWouter De CosterさんがGithubで公開しているナノポアのロングリード分析ツール。クオリティや長さの分布を調べる時の重宝する。
ブログ
Example gallery of NanoPlot
NanoPlotはwebでも使える。
インストール
依存
- python >=3.5,<3.6.0
mamba create -n nanostat -y python=3.8
conda activate nanostat
#nanostat
mamba install -c bioconda nanostat -y
#nanoplot
mamba install -c bioconda nanoplot -y
#pip
pip install nanoplot nanostat
ラン
リードのstatistics
1Dリード。
NanoStat --fastq input.fq -t 1
- --fastq FASTQ Data is in fastq format.
- -t --threads THREADS Max number of threads to be used by the script
defaultでは以下のようなsummaryが出力される。
user$ cat NanoStats.txt
Number of reads: 43463
Total bases: 209281808
Median read length: 2914.0
Mean read length: 4815.17
Readlength N50: 9960
Top 5 read lengths and their average basecall quality score:
Length: 701071bp Q: 7.13
Length: 92467bp Q: 5.63
Length: 88473bp Q: 7.06
Length: 80054bp Q: 5.21
Length: 73641bp Q: 7.33
Top 5 average basecall quality scores and their read lengths:
Length: 2750bp Q: 13.35
Length: 5842bp Q: 13.32
Length: 654bp Q: 13.02
Length: 4680bp Q: 12.94
Length: 3327bp Q: 12.9
Number of reads and fraction above quality cutoffs:
Q5: 40073 92.2%
Q10: 13842 31.85%
Q15: 0 0.0%
Nanoplotでクオリティとリード長の分布をグラフ出力する。
NanoPlot --fastq merged.fastq --loglength -t 8 -o qc_result_dir
Required
- --fastq FASTQ Data presented is in fastq format exported from fast5 files by e.g. poretools.
- --fastq_rich FASTQ_rich Data presented is in fastq format generated by Albacore or MinKNOW with additional information concerning channel and time.
- --bam BAM Data presented as a sorted bam file.
- --summary SUMMARY Data is a summary file generated by albacore.
Arguments for optional filtering:
- --readtype Specify read type to extract from summary file Options: 1D (default), 2D or 1D2
- --maxlength MAXLENGTH Drop reads longer than length N.
- --loglength Logarithmic scaling of lengths in plots.
General arguments:
- -t --threads THREADS Max number of threads to be used by the script
nanostat、NanoPlot共に他にもいくつかオプションがあります。詳細はGitのページで確認してください。
出力例
追記
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6053456/ の図2を見ると、リード両端のクオリティが低い。アプリケーションによっては、このあたりの配列は強制トリミングしてもいいかもしれない。
2021 9/17
出力される図のグラフィックが変わっています。より見やすくなっていますね。
引用
NanoPack: visualizing and processing long read sequencing data.
De Coster W, D'Hert S, Schultz DT, Cruts M, Van Broeckhoven C
Bioinformatics. 2018 Mar 14.
関連
こちらも確認して下さい。