macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ナノポアのロングリードのトリミングやフィルタリングを行うNanofilt

 

nanofitはナノポアのロングリードのクオリティトリミングができるツールである。

  

インストール

Github

https://github.com/wdecoster/nanofilt

conda install -c bioconda nanofilt

  

ラン

5'末端75-bpの強制トリミングと、平均クオリティ10以下のリードを捨てるフィルタリングを実行する。

gunzip -c input.fq.gz |NanoFilt -q 10 --headcrop 75 | gzip > trimmed.fq.gz
  • -q QUALITY Filter on a minimum average read quality score
  • -s SUMMARYFILE optional, the sequencing_summary file from albacore for extracting quality scores
  • -l LENGTH Filter on a minimum read length
  • --headcrop HEADCROP Trim n nucleotides from start of read
  • --tailcrop TAILCROP Trim n nucleotides from end of read

 

ナノポアのリードの先頭数十bpは特にクオリティが悪く、解析に悪影響を与えるので強制トリミングしている。

 

 

1Dのデータを分析してみる。

まずはfast5から変換して作ったraw fastqを分析する。

NanoPlot --fastq E.coli.fastq --loglength -t 12

f:id:kazumaxneo:20171007151034j:plain

quality6以下、1000bp付近に非常にたくさんのリードが出ており、クオリティの山が2つある状態である。また、山の形状も異なるのも興味深い。左下に伸びた短いリードはつまりジャンクということだろうか?

 

下の山をクオリティ6で切る。また5'末端50-bpをトリミングし、100bp以下になったリードは捨てる。

gunzip -c input.fq.gz |NanoFilt -q 10 --headcrop 50 -l 100 > trimmed.fq

nanoplotで分析。

NanoPlot --fastq trimmed.fastq --loglength -t 12 

f:id:kazumaxneo:20171007152051j:plain

平均クオリティ6以下が完全になくなっている。

 

 

nanoplotは別に紹介しています。