2020 6/6コマンド修正
ロングリードシーケンシング技術(Pacific BiosciencesおよびOxford Nanoporesによって開発された)は、ショートリードシーケンシング技術と比較して改良されたアセンブリをもたらした。しかしながら、それらの応用、特にメタゲノミクスの分野での応用は、塩基当たりのコストの点で、かなり高価なままである。対照的に、合成ロングリード(SLR)技術[イルミナ、10X Genomics、ループジェノミクス、ユニバーサルシークエンシングテクノロジー(UST)によって最近開発された]は、ショートリードの精度および低コストとロングレンジ情報を組み合わせ、エラーを起こしやすいロングリードに代わる魅力的な代替技術である。様々なSLR技術は、同様のプロトコルに従う(論文図1)。DNAは、長いゲノム断片に剪断される。フラグメントは、複数の容器に分散され、各容器は固有のバーコードによって特徴付けられる。1つの容器には、同じバーコードを持つ複数の断片が含まれている場合がある。
TruSeq SLR(TSLR)技術は、長さ≈10 kbの150~300のフラグメントを384ウェル分生成する。それらを高いカバレッジでシーケンシングする。これらのパラメータは同じバーコードを有するすべてのリードのバーコードアセンブリを可能にする。TSLRは、メタゲノム中の希少種を明らかにしたが(Bankevich and Pevzner, 2016, 2018; Sharonら, 2015)、それらのアプリケーションは、かなり高いコストによって制限されている。
Sparse SLR (SSLR) 技術(10x Genomics や UST)はTSLR技術のより低コストの代替技術で、ショートリードによる低いカバレッジをもたらし、バーコードアセンブリは可能にしない。その代わりに、多くのコンテナ(最大400万)に分散したより長いフラグメント(典型的には10〜70 kb)を生成する。高コストのTSLRを対象としたtruSPAdes(Bankevich and Pevzner, 2016)とは異なり、cloudSPAdesは低コストのTSLR向けに開発された。
10X Genomics Chromium Controllerは現在、SSLRを生成するための最もポピュラーな装置だが、様々なグループがSSLRのコストを削減し、高価なChromium Controllerをよりシンプルなキットベースのバーコードプロトコルに置き換えることで、コストを桁違いに削減することを目標に、新しいバーコードプロトコルを開発している。例えば、USTは最近、Transposase Enzyme Linked Long-read Sequencing (TELL-SeqTM)を導入した。これは、高価なプロトコルに特化した装置を必要とせず、シングルチューブ反応でより速く、よりコスト効率の良い方法でSSLRを生成することを可能にする。TELL-Seqは、低コストで高品質なショートリードアセンブリを生成するために、マッチペアを置き換えることにより、ショートリードシーケンシングの進歩を約束する。
TELL-Seqは、MuトランスポゾンがDNA標的を攻撃する際に非常に安定な中間生成物(すなわち鎖転移複合体)を生成し(Savilahti et ak、1995)、DNA標的が切断される前にバーコード化するというMuトランスポゾン反応のユニークな特性を利用している。TELL-Seqは、1~10ngのゲノムDNAを約3時間で入力し、細菌からヒトまでの様々なゲノムサイズに対応したSSLRシーケンシングライブラリを作成する。
既存のSLRアセンブラは3つのカテゴリーに分類できる。バーコードアセンブリアプローチは、TSLR技術(Bankevich and Pevzner, 2016)またはSSLR技術(Bisharaら, 2018)のように、単一のバーコードのショートリードをアセンブルすることによってSLRを再構築し、得られたSLRからさらにゲノムを再構築する。スキャフォールディングアプローチは、バーコード化されたリードをコンティグに整列させ、スキャフォールディングに使用する。de Bruijnグラフアプローチは、すべてのバーコード化されたリードのアセンブリグラフを構築し、それをフォローアップSLRアセンブリに使用する。
Supernova (Weisenfeld et al., 2017)を除いて、既存のSSLRアセンブラ[Architect (Kuleshov et al., 2016)、ARCS (Yeo et al., 2018)およびAthena (Bishara et al., 2018)]は、初期アセンブラにSPAdesアセンブラ(Bankevich et al., 2012)を使用し(バーコーディング情報を使用せず)、バーコーディング情報を利用してさらに改良している。しかし、彼らはSPAdesコンティグのみを使用しており、バーコードを解析するための重要な情報を提供するSPAdesアセンブリグラフを利用していない。 cloudSPAdesはアセンブリグラフを解析することでこの制限に対処し、メタゲノムSSLRアセンブリのためのアセンブリグラフの最初のアプリケーションとなる。
このツールは、10X Genomics Chromium と TELL-seq テクノロジーを使用して作成された SLR ライブラリをサポートしている。
GIthub early release
cd spades-cloudspades-paper/assembler/
> ./spades.py
# ./spades.py
SPAdes genome assembler v3.12.0-dev
Usage: ./spades.py [options] -o <output_dir>
Basic options:
-o <output_dir> directory to store all the resulting files (required)
--sc this flag is required for MDA (single-cell) data
--meta this flag is required for metagenomic sample data
--rna this flag is required for RNA-Seq data
--plasmid runs plasmidSPAdes pipeline for plasmid detection
--iontorrent this flag is required for IonTorrent data
--test runs SPAdes on toy dataset
-h/--help prints this usage message
-v/--version prints version
Input data:
--12 <filename> file with interlaced forward and reverse paired-end reads
-1 <filename> file with forward paired-end reads
-2 <filename> file with reverse paired-end reads
-s <filename> file with unpaired reads
--merged <filename> file with merged forward and reverse paired-end reads
--pe<#>-12 <filename> file with interlaced reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-1 <filename> file with forward reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-2 <filename> file with reverse reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-s <filename> file with unpaired reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-m <filename> file with merged reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-<or> orientation of reads for paired-end library number <#> (<#> = 1,2,...,9; <or> = fr, rf, ff)
--s<#> <filename> file with unpaired reads for single reads library number <#> (<#> = 1,2,...,9)
--gemcode<#>-12 <filename> file with interlaced reads for 10x Genomics Chromium library number <#> (<#> = 1,2,...,9)
--gemcode<#>-1 <filename> file with forward reads for 10x Genomics Chromium library number <#> (<#> = 1,2,...,9)
--gemcode<#>-2 <filename> file with reverse reads for 10x Genomics Chromium library number <#> (<#> = 1,2,...,9)
--mp<#>-12 <filename> file with interlaced reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-1 <filename> file with forward reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-2 <filename> file with reverse reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-s <filename> file with unpaired reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-<or> orientation of reads for mate-pair library number <#> (<#> = 1,2,..,9; <or> = fr, rf, ff)
--hqmp<#>-12 <filename> file with interlaced reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-1 <filename> file with forward reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-2 <filename> file with reverse reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-s <filename> file with unpaired reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-<or> orientation of reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9; <or> = fr, rf, ff)
--nxmate<#>-1 <filename> file with forward reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9)
--nxmate<#>-2 <filename> file with reverse reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9)
--sanger <filename> file with Sanger reads
--pacbio <filename> file with PacBio reads
--nanopore <filename> file with Nanopore reads
--tslr <filename> file with TSLR-contigs
--trusted-contigs <filename> file with trusted contigs
--untrusted-contigs <filename> file with untrusted contigs
Pipeline options:
--only-error-correction runs only read error correction (without assembling)
--only-assembler runs only assembling (without read error correction)
--careful tries to reduce number of mismatches and short indels
--continue continue run from the last available check-point
--restart-from <cp> restart run with updated options and from the specified check-point ('ec', 'as', 'k<int>', 'mc', 'last')
--disable-gzip-output forces error correction not to compress the corrected reads
--disable-rr disables repeat resolution stage of assembling
Advanced options:
--dataset <filename> file with dataset description in YAML format
-t/--threads <int> number of threads
[default: 16]
-m/--memory <int> RAM limit for SPAdes in Gb (terminates if exceeded)
[default: 250]
--tmp-dir <dirname> directory for temporary files
[default: <output_dir>/tmp]
-k <int,int,...> comma-separated list of k-mer sizes (must be odd and
less than 128) [default: 'auto']
--cov-cutoff <float> coverage cutoff value (a positive float number, or 'auto', or 'off') [default: 'off']
--phred-offset <33 or 64> PHRED quality offset in the input reads (33 or 64)
[default: auto-detect]
./spades.py --gemcode1-12 test_dataset_cloudspades/test.fastq -o cloudspades_test
SLRライブラリのリードを使う場合、イルミナリードの--pe1-1` と `--pe1-2の代わりに 左と右のリードを`--gemcode1-1` と `--gemcode1-2` のオプションをつけて指定する。SLRライブラリはFASTQ形式で、バーコードはBC:ZまたはBX:Zタグとして添付する。
spades.py --gemcode1-1 slr_reads1.fq.gz --gemcode1-2 slr_reads2.fq.gz -o outdir -t 12
--gemcode<#>-12 <file_name> File with interlaced reads for SLR library number `<#>` (`<#>` = 1,2,..,9).
--gemcode<#>-1 <file_name> File with left reads for SLR library number `<#>` (`<#>` = 1,2,..,9).
--gemcode<#>-2 <file_name> File with right reads for SLR library number `<#>` (`<#>` = 1,2,..,9).
cloudSPAdes: assembly of synthetic long reads using de Bruijn graphs
Ivan Tolstoganov, Anton Bankevich, Zhoutao Chen, Pavel A Pevzner
Bioinformatics, Volume 35, Issue 14, July 2019, Pages i61–i70,