支配的なsynthesis technology によるシーケンシングは、固定リード長の(50-300bp)の高精度(エラー率<1%)なシーケンシングとして特徴付けられる(Goodwin et al、2016)。対照的に、Oxford Nanopore Technologies(ONT)およびPacific Biosciencesのロングリードシーケンシングは、ルーティンに10kbを超えるリードを生成し、ONTでは最大1.2Mbのリード長を達成する。これらのロングリードは、約85〜95%という低い精度のトレードオフを伴っている(Giordano et al、2017; Jain et al、2017、2018)。これらの特徴から、既存のIllumina向けに作られた多くのQCツール、例えばFastQC(Babraham Bioinformatics 2010、https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)などがロングリードにはsuboptimalであることは明らかである。 long-readシーケンシングデータを視覚化して処理するための一連のPythonスクリプトNanoPackは、このギャップを部分的に埋めるために開発された。 poretools(Loman and Quinlan、2014)、poRe(Watson et al、2015)、IONiseR(Smith、2017)などの古いfast5ファイル形式のフィーチャ抽出ツールや、代替であるpycoQC(Leger、 2017)とminion_qc(Lanfear、nd https://github.com/roblanf/minion_qc)は、NanoPackと同じ柔軟性とオプションを提供していない。 pauvreツール(Schultz、n.d. https://github.com/conchoecia/pauvre)のプロットスタイルは、NanoPackに組み込まれた。
(一部略)
NanoLyseは、Pythonのmappy(Li、2017)を介してMinimap2アライナーを使うことで、汚染DNAを迅速に除去するためのツールである。 典型的な用途は、ラムダファージコントロールDNAフラグメントの除去である。 しかし、このアプローチは、ラムダファージゲノムと高度に相同な領域もつリードについて、望ましくない損失をもたらし得ることに留意すべきである。
ここではNanoLyseを紹介します。
インストール
mac os10.14のanaconda3-5.1.0環境でテストした。
依存
本体 GIthub
#anaconda環境ならcondaで導入できる
conda install -y -c bioconda nanolyse
> NanoLyse -h
$ NanoLyse -h
usage: NanoLyse [-h] [-v] [-r REFERENCE] [--logfile LOGFILE]
Remove reads mapping to the lambda genome. Reads fastq from stdin and writes to stdout.
optional arguments:
-r, --reference REFERENCE
Specify a reference fasta file against which to filter.
--logfile LOGFILE Specify the path and filename for the log file.
General options:
-h, --help show the help and exit
-v, --version Print version and exit.
EXAMPLES:
gunzip -c reads.fastq.gz | NanoLyse | gzip > reads_without_lambda.fastq.gz
gunzip -c reads.fastq.gz | NanoLyse | NanoFilt -q 12 | gzip > filtered_reads_without_lambda.fastq.gz
gunzip -c reads.fastq.gz | NanoLyse --reference mygenome.fa.gz | gzip > reads_without_mygenome.fastq.gz
実行方法
fastqを指定する。また除く対象のリファレンス配列(lambdaなど)を指定する。
gunzip -c input.fq.gz | NanoLyse --reference lambda.fa.gz | gzip > without_mygenome.fq.gz
非圧縮fastqを使うなら、gunzip/zcatの代わりにcatを使う。
Nanofintと組み合わせる。
gunzip -c reads.fq.gz | NanoLyse --reference lambda.fa.gz| NanoFilt -q 10 | gzip > filtered_reads_without_lambda.fq.gz
Nanofintは以前紹介しました。
引用
NanoPack: visualizing and processing long-read sequencing data
De Coster W, D'Hert S, Schultz DT, Cruts M, Van Broeckhoven C
Bioinformatics. 2018 Aug 1;34(15):2666-2669