macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

lambda phageコントロールをONTなどのfastqから除く NanoLyse

 

  支配的なsynthesis technology によるシーケンシングは、固定リード長の(50-300bp)の高精度(エラー率<1%)なシーケンシングとして特徴付けられる(Goodwin et al、2016)。対照的に、Oxford Nanopore Technologies(ONT)およびPacific Biosciencesのロングリードシーケンシングは、ルーティンに10kbを超えるリードを生成し、ONTでは最大1.2Mbのリード長を達成する。これらのロングリードは、約85〜95%という低い精度のトレードオフを伴っている(Giordano et al、2017; Jain et al、2017、2018)。これらの特徴から、既存のIllumina向けに作られた多くのQCツール、例えばFastQC(Babraham Bioinformatics 2010、https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)などがロングリードにはsuboptimalであることは明らかである。 long-readシーケンシングデータを視覚化して処理するための一連のPythonスクリプトNanoPackは、このギャップを部分的に埋めるために開発された。 poretools(Loman and Quinlan、2014)、poRe(Watson et al、2015)、IONiseR(Smith、2017)などの古いfast5ファイル形式のフィーチャ抽出ツールや、代替であるpycoQC(Leger、 2017)とminion_qc(Lanfear、nd https://github.com/roblanf/minion_qc)は、NanoPackと同じ柔軟性とオプションを提供していない。 pauvreツール(Schultz、n.d. https://github.com/conchoecia/pauvre)のプロットスタイルは、NanoPackに組み込まれた。 

(一部略)

NanoLyseは、Pythonのmappy(Li、2017)を介してMinimap2アライナーを使うことで、汚染DNAを迅速に除去するためのツールである。 典型的な用途は、ラムダファージコントロールDNAフラグメントの除去である。 しかし、このアプローチは、ラムダファージゲノムと高度に相同な領域もつリードについて、望ましくない損失をもたらし得ることに留意すべきである。 

 

ここではNanoLyseを紹介します。

 

インストール

mac os10.14のanaconda3-5.1.0環境でテストした。

依存

本体 GIthub

#anaconda環境ならcondaで導入できる
conda install -y -c bioconda nanolyse

 > NanoLyse -h

$ NanoLyse -h

usage: NanoLyse [-h] [-v] [-r REFERENCE] [--logfile LOGFILE]

 

Remove reads mapping to the lambda genome. Reads fastq from stdin and writes to stdout.

 

optional arguments:

  -r, --reference REFERENCE

                        Specify a reference fasta file against which to filter.

  --logfile LOGFILE     Specify the path and filename for the log file.

 

General options:

  -h, --help            show the help and exit

  -v, --version         Print version and exit.

 

EXAMPLES:

    gunzip -c reads.fastq.gz | NanoLyse | gzip > reads_without_lambda.fastq.gz

    gunzip -c reads.fastq.gz | NanoLyse | NanoFilt -q 12 | gzip > filtered_reads_without_lambda.fastq.gz

    gunzip -c reads.fastq.gz | NanoLyse --reference mygenome.fa.gz | gzip > reads_without_mygenome.fastq.gz

 

 実行方法

fastqを指定する。また除く対象のリファレンス配列(lambdaなど)を指定する。

gunzip -c input.fq.gz | NanoLyse --reference lambda.fa.gz | gzip > without_mygenome.fq.gz

非圧縮fastqを使うなら、gunzip/zcatの代わりにcatを使う。

 

Nanofintと組み合わせる。

gunzip -c reads.fq.gz | NanoLyse  --reference lambda.fa.gz| NanoFilt -q 10 | gzip > filtered_reads_without_lambda.fq.gz

 

 

Nanofintは以前紹介しました。

引用

NanoPack: visualizing and processing long-read sequencing data

De Coster W, D'Hert S, Schultz DT, Cruts M, Van Broeckhoven C

Bioinformatics. 2018 Aug 1;34(15):2666-2669