macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

リファレンス配列に点変異やSVを導入するEMBOSSのmsbar

2019 7/16 タイトル修正

 

EMBOSSパッケージのmsbarを使うと、リファレンスに変異を導入することができる。変異のシミュレーション実験などに使える機能である。

 

公式サイト

http://emboss.sourceforge.net

EMBOSS: msbar

 

インストール

embossはcondaやbrewで導入できる。

mamba install -c bioconda -y emboss

brew install emboss

 

実行方法

msbarをタイプし、指示に従えば変異を導入できる。

user$ msbar

Mutate a sequence

Input sequence(s): Homo_sapiens.GRCh38.dna.chromosome.19.fasta  

Number of times to perform the mutation operations [1]: 10

Point mutation operations

         0 : None

         1 : Any of the following

         2 : Insertions

         3 : Deletions

         4 : Changes

         5 : Duplications

         6 : Moves

Types of point mutations to perform [0]: 0

Block mutation operations

         0 : None

         1 : Any of the following

         2 : Insertions

         3 : Deletions

         4 : Changes

         5 : Duplications

         6 : Moves

Types of block mutations to perform [0]: 2

Codon mutation operations

         0 : None

         1 : Any of the following

         2 : Insertions

         3 : Deletions

         4 : Changes

         5 : Duplications

         6 : Moves

Types of codon mutations to perform [0]: 0

output sequence(s) [19.fasta]: out.fa

humanのchr19に構造変化を起こすInsertion変異を10回導入して、out.faで出力した。

 

ワンライナーでも動作する。

1-1000bpのBlock mutationを100回導入する。他の変異は発生させない。

msbar -sequence Homo_sapiens_chr19.fasta -outseq output.fa -count 100 -point 0 -block 3 -codon 0 -minimum 1 -maximum 1000

 

Point mutationの1塩基挿入を10回導入する。他の変異は発生させない。

msbar -sequence Homo_sapiens_chr19.fasta -outseq output.fa -count 10 -point 2 -block 0 -codon 0

 

変異後の配列からfastqを発生させてオリジナルの配列にマッピングすれば、変異株のリシーケンスのシミュレーション実験ができる。どうやら正確な変異のbreakpintをレポートする機能はないようなので、盲検テストとしてツール間の感度分析などに使うと良いかもしれない。

 

引用

EMBOSS: The European Molecular Biology Open Software Suite

Rice P, Longden I, Bleasby A.

Trends Genet. 2000 Jun;16(6):276-7.

 

SVを検出する wham

 

whamはsplit-read情報、soft-clipping情報、コンセンサス配列情報などを統合してSVを検出するSV検出の方法論。サイズの大きなSVも検出することが可能である。ダウンロードできるパッケージにはwhamとwhamgの2つのツールが入っている。2015年に発表された論文ではオリジナルのwhamが使用されているが、whamは高感度でfalse positiveも多いため、オーサーらは、false positiveを減らすように改良されたwhamgを使うことを推奨している。

 

公式サイト

Wham

インストール

Github

git clone --recursive https://github.com/zeeev/wham.git; cd wham; make 

macでは動作中にエラ-を起こしたのでcent OSに導入した。 

condaでも導入できる(linux only リンク)。

#Anaconda環境にて
conda install -c bioconda wham

  

実行方法

whamgを使うフローのみ紹介する。

inputのbamはbwa memを用いてアライメント後、ソートされduplicate tagもつけたものを使うことが推奨されている。

whamg -a Homo_sapiens_assembly19.fasta -f CHM1_1.bam | perl utils/filtWhamG.pl > chm1.vcf 2> chm1.err

 

制作途中

 

 

 

引用

Wham: Identifying Structural Variants of Biological Consequence

Zev N. Kronenberg, Edward J. Osborne, Kelsey R. Cone, Brett J. Kennedy, Eric T. Domyan, Michael D. Shapiro, Nels C. Elde, Mark Yandell

PLoS Comput Biol. 2015 Dec 1;11(12):e1004572.

 

ナノポアのロングリードのトリミングやフィルタリングを行うNanofilt

2019 2/14 コマンド追加

2019 5/19 ヘルプ追加、パラメータ変更

2019 12/30並列処理例追加

2020 10/10 リンク追加

 

nanofitはナノポアのロングリードのクオリティトリミングができるツールである。

  

インストール

Github

https://github.com/wdecoster/nanofilt

https://github.com/wdecoster/NanoPlot

mamba install -y -c conda-forge -c bioconda Nanofilt
mamba install -y -c conda-forge -c bioconda NanoPlot

> NanoPlot -h

$ NanoPlot -h

usage: NanoPlot [-h] [-v] [-t THREADS] [--verbose] [--store] [--raw]

                [-o OUTDIR] [-p PREFIX] [--maxlength N] [--minlength N]

                [--drop_outliers] [--downsample N] [--loglength]

                [--percentqual] [--alength] [--minqual N]

                [--readtype {1D,2D,1D2}] [--barcoded] [-c COLOR]

                [-f {eps,jpeg,jpg,pdf,pgf,png,ps,raw,rgba,svg,svgz,tif,tiff}]

                [--plots [{kde,hex,dot,pauvre} [{kde,hex,dot,pauvre} ...]]]

                [--listcolors] [--no-N50] [--N50] [--title TITLE]

                (--fastq file [file ...] | --fasta file [file ...] | --fastq_rich file [file ...] | --fastq_minimal file [file ...] | --summary file [file ...] | --bam file [file ...] | --cram file [file ...] | --pickle pickle)

 

CREATES VARIOUS PLOTS FOR LONG READ SEQUENCING DATA.

 

General options:

  -h, --help            show the help and exit

  -v, --version         Print version and exit.

  -t, --threads THREADS

                        Set the allowed number of threads to be used by the script

  --verbose             Write log messages also to terminal.

  --store               Store the extracted data in a pickle file for future plotting.

  --raw                 Store the extracted data in tab separated file.

  -o, --outdir OUTDIR   Specify directory in which output has to be created.

  -p, --prefix PREFIX   Specify an optional prefix to be used for the output files.

 

Options for filtering or transforming input prior to plotting:

  --maxlength N         Drop reads longer than length specified.

  --minlength N         Drop reads shorter than length specified.

  --drop_outliers       Drop outlier reads with extreme long length.

  --downsample N        Reduce dataset to N reads by random sampling.

  --loglength           Logarithmic scaling of lengths in plots.

  --percentqual         Use qualities as theoretical percent identities.

  --alength             Use aligned read lengths rather than sequenced length (bam mode)

  --minqual N           Drop reads with an average quality lower than specified.

  --readtype {1D,2D,1D2}

                        Which read type to extract information about from summary. Options are 1D, 2D,

                        1D2

  --barcoded            Use if you want to split the summary file by barcode

 

Options for customizing the plots created:

  -c, --color COLOR     Specify a color for the plots, must be a valid matplotlib color

  -f, --format {eps,jpeg,jpg,pdf,pgf,png,ps,raw,rgba,svg,svgz,tif,tiff}

                        Specify the output format of the plots.

  --plots [{kde,hex,dot,pauvre} [{kde,hex,dot,pauvre} ...]]

                        Specify which bivariate plots have to be made.

  --listcolors          List the colors which are available for plotting and exit.

  --no-N50              Hide the N50 mark in the read length histogram

  --N50                 Show the N50 mark in the read length histogram

  --title TITLE         Add a title to all plots, requires quoting if using spaces

 

Input data sources, one of these is required.:

  --fastq file [file ...]

                        Data is in one or more default fastq file(s).

  --fasta file [file ...]

                        Data is in one or more fasta file(s).

  --fastq_rich file [file ...]

                        Data is in one or more fastq file(s) generated by albacore or MinKNOW with

                        additional information concerning channel and time.

  --fastq_minimal file [file ...]

                        Data is in one or more fastq file(s) generated by albacore or MinKNOW with

                        additional information concerning channel and time. Minimal data is extracted

                        swiftly without elaborate checks.

  --summary file [file ...]

                        Data is in one or more summary file(s) generated by albacore.

  --bam file [file ...]

                        Data is in one or more sorted bam file(s).

  --cram file [file ...]

                        Data is in one or more sorted cram file(s).

  --pickle pickle       Data is a pickle file stored earlier.

 

EXAMPLES:

    Nanoplot --summary sequencing_summary.txt --loglength -o summary-plots-log-transformed

    NanoPlot -t 2 --fastq reads1.fastq.gz reads2.fastq.gz --maxlength 40000 --plots hex dot

    NanoPlot --color yellow --bam alignment1.bam alignment2.bam alignment3.bam --downsample 10000

    

NanoFilt -h

# NanoFilt -h

usage: NanoFilt [-h] [-v] [--logfile LOGFILE] [-l LENGTH]

                [--maxlength MAXLENGTH] [-q QUALITY] [--minGC MINGC]

                [--maxGC MAXGC] [--headcrop HEADCROP] [--tailcrop TAILCROP]

                [-s SUMMARY] [--readtype {1D,2D,1D2}]

 

Perform quality and/or length and/or GC filtering of (long read) fastq data.           Reads on stdin.

 

General options:

  -h, --help            show the help and exit

  -v, --version         Print version and exit.

  --logfile LOGFILE     Specify the path and filename for the log file.

 

Options for filtering reads on.:

  -l LENGTH, --length LENGTH

                        Filter on a minimum read length

  --maxlength MAXLENGTH

                        Filter on a maximum read length

  -q QUALITY, --quality QUALITY

                        Filter on a minimum average read quality score

  --minGC MINGC         Sequences must have GC content >= to this. Float between 0.0 and 1.0. Ignored if

                        using summary file.

  --maxGC MAXGC         Sequences must have GC content <= to this. Float between 0.0 and 1.0. Ignored if

                        using summary file.

 

Options for trimming reads.:

  --headcrop HEADCROP   Trim n nucleotides from start of read

  --tailcrop TAILCROP   Trim n nucleotides from end of read

 

Input options.:

  -s SUMMARY, --summary SUMMARY

                        Use summary file for quality scores

  --readtype {1D,2D,1D2}

                        Which read type to extract information about from summary. Options are 1D, 2D or

                        1D2

 

EXAMPLES:

  gunzip -c reads.fastq.gz | NanoFilt -q 10 -l 500 --headcrop 50 | minimap2 genome.fa - | samtools sort -O BAM -@24 -o alignment.bam -

  gunzip -c reads.fastq.gz | NanoFilt -q 12 --headcrop 75 | gzip > trimmed-reads.fastq.gz

  gunzip -c reads.fastq.gz | NanoFilt -q 10 | gzip > highQuality-reads.fastq.gz

root@fc7ac9b00489:/# 

 

 

ラン

5'末端75-bpのトリミング、平均クオリティ10以下のリードを捨てるクオリティフィルタリング、500bp以下のリードを捨てるサイズフィルタリングを実行する。

gunzip -c input.fq.gz |NanoFilt -q 10 -l 500 --headcrop 75 | gzip > trimmed.fq.gz
  • -q QUALITY Filter on a minimum average read quality score
  • -s SUMMARYFILE optional, the sequencing_summary file from albacore for extracting quality scores
  • -l LENGTH Filter on a minimum read length
  • --headcrop HEADCROP Trim n nucleotides from start of read
  • --tailcrop TAILCROP Trim n nucleotides from end of read

 

ナノポアのリードの先頭数十bpは特にクオリティが悪く、解析に悪影響を与えるので強制トリミングしている。

 

 

1Dのデータを分析してみる。

まずはfast5からbasecallingして作ったraw fastqを分析する(webでも利用可能)。

NanoPlot --fastq E.coli.fastq --loglength -t 12

f:id:kazumaxneo:20171007151034j:plain

quality6以下、1000bp付近に非常にたくさんのリードが出ており、クオリティの山が2つある状態である。また、山の形状も異なるのも興味深い。左下に伸びた短いリードはつまりジャンクということだろうか?

 

下の山をクオリティ6で切る。また5'末端50-bpをトリミングし、100bp以下になったリードは捨てる。

$gzip compressed fastq
gunzip -c input.fq.gz |NanoFilt -q 6 --headcrop 50 -l 100 > trimmed.fq

#fastq
cat input.fq |NanoFilt -q 6 --headcrop 50 -l 100 > trimmed.fq

nanoplotで分析。

NanoPlot --fastq trimmed.fastq --loglength -t 12 -o qc_result_dir

f:id:kazumaxneo:20171007152051j:plain

平均クオリティ6以下が完全になくなっている。

 

nanoplotは別に紹介しています。


追記

2019 12/30 mergeする前のfastqがあるならGNU parallelで簡単に並列処理できる(*1)。"q10>"、"500bp>"、"先頭50bpトリミング"を8並列で実行する。

ls *.fastq | parallel -j 8 'cat {} | NanoFilt -q 10 --headcrop 50 -l 500 > filtered_{}'

 

引用

NanoPack: visualizing and processing long read sequencing data.

De Coster W, D'Hert S, Schultz DT, Cruts M, Van Broeckhoven C

Bioinformatics. 2018 Mar 14.

 

関連


 

 

 

 

*1

Trimming and filtering Oxford Nanopore sequencing reads – Gigabase or gigabyte

ナノポアのロングリードの長さやクオリティを分析するnanostatとNanoPlot

2019 5/19 インストール追記

2019 9/7コメント追加2020 1/4 インストール手順仮想環境に導入するように修正

2021 9/17 追記

2022/04/20 インストール追記 (python=3.5 => python=3.8 )

 

ショートリード用のクオリティ分析ツールはナノポアのロングリードでは機能しないので、専用のツールが必要である。nanostatとNanoPlotはWouter De CosterさんがGithubで公開しているナノポアのロングリード分析ツール。クオリティや長さの分布を調べる時の重宝する。

 

ブログ

Example gallery of&nbsp;NanoPlot

NanoPlotはwebでも使える。

http://nanoplot.bioinf.be

 

インストール

依存

Github

mamba create -n nanostat -y python=3.8
conda activate nanostat
#nanostat
mamba install -c bioconda nanostat -y
#nanoplot
mamba install -c bioconda nanoplot -y

#pip
pip install nanoplot nanostat

 

ラン

リードのstatistics

1Dリード。

NanoStat --fastq input.fq -t 1
  • --fastq FASTQ Data is in fastq format.
  • -t  --threads THREADS Max number of threads to be used by the script

defaultでは以下のようなsummaryが出力される。 

user$ cat NanoStats.txt 

Number of reads: 43463

Total bases: 209281808

Median read length: 2914.0

Mean read length: 4815.17

Readlength N50: 9960

 

Top 5 read lengths and their average basecall quality score:

Length: 701071bp Q: 7.13

Length: 92467bp Q: 5.63

Length: 88473bp Q: 7.06

Length: 80054bp Q: 5.21

Length: 73641bp Q: 7.33

 

Top 5 average basecall quality scores and their read lengths:

Length: 2750bp Q: 13.35

Length: 5842bp Q: 13.32

Length: 654bp Q: 13.02

Length: 4680bp Q: 12.94

Length: 3327bp Q: 12.9

 

Number of reads and fraction above quality cutoffs:

Q5: 40073 92.2%

Q10: 13842 31.85%

Q15: 0 0.0%

 

 Nanoplotでクオリティとリード長の分布をグラフ出力する。

NanoPlot --fastq merged.fastq --loglength -t 8 -o qc_result_dir

Required

  • --fastq FASTQ Data presented is in fastq format exported from fast5 files by e.g. poretools.
  • --fastq_rich FASTQ_rich Data presented is in fastq format generated by Albacore or MinKNOW with additional information concerning channel and time.
  • --bam BAM Data presented as a sorted bam file.
  • --summary SUMMARY Data is a summary file generated by albacore.

Arguments for optional filtering:

  • --readtype Specify read type to extract from summary file Options: 1D (default), 2D or 1D2
  • --maxlength MAXLENGTH Drop reads longer than length N.
  • --loglength Logarithmic scaling of lengths in plots.

General arguments:

  • -t  --threads THREADS Max number of threads to be used by the script

nanostat、NanoPlot共に他にもいくつかオプションがあります。詳細はGitのページで確認してください。

 

 

出力例

f:id:kazumaxneo:20171007144704j:plain

f:id:kazumaxneo:20171007144744j:plain

f:id:kazumaxneo:20171007144710j:plain

f:id:kazumaxneo:20171007144713j:plain

f:id:kazumaxneo:20171007144716j:plain

 

追記

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6053456/ の図2を見ると、リード両端のクオリティが低い。アプリケーションによっては、このあたりの配列は強制トリミングしてもいいかもしれない。

 

2021 9/17

出力される図のグラフィックが変わっています。より見やすくなっていますね。

f:id:kazumaxneo:20210918214327p:plain

 

引用

NanoPack: visualizing and processing long read sequencing data.

De Coster W, D'Hert S, Schultz DT, Cruts M, Van Broeckhoven C

Bioinformatics. 2018 Mar 14.

 

 関連

 

こちらも確認して下さい。


 

 

 

 

SV検出結果のVCFファイルを統合する mergeSVcallers

 

構造変化検出結果はツールによって得手不得手があるため、網羅的にSVを検出するためには、現状複数ツールを並行して走らせるのが理想とされる。そのため、複数のツール結果を統合して弱点を無くすような方法論も出て来たりしている。しかし、ツールによって出力のVCFファイルがVCF4.2に完全には準拠していないものも多く、結果を統合するのは実は簡単ではない。

 

mergeSVcallersは、Zev KronenbergさんがGithubで公開しているSV検出結果を統合するツールである。現在はLumpyの解析結果、GENOME STRIP CNVsの解析結果、wham (whamg) の解析結果を統合することができる。

  

インストール

Github

git clone --recursive https://github.com/zeeev/mergeSVcallers.git 
cd mergeSVcallers/
make

 

実行方法

mergeSVcallers -a ref.fasta -f a.vcf.gz,b.vcf.gz -t WHAM,LUMPY -s 500
  • -a The samtools faidx indexed FASTA file
  • -f A comma separated list of Tabix indexed VCF files
  • -t A comma separated list of tags/identifiers for each file
  • -s Merge SVs with both breakpoints N BP away [100]
  • -r Reciprocal overlap also required [0]

 

結果からベン図をかくスクリプトも準備されている。

 

準備中

 

 

ナノポアのロングリードを使うとアセンブルはどのくらい改善されるのか?

ハイクオリティなショートリードのデータに、ロングリード情報を混ぜ込むとどれくらいアセンブリは改善されるのか調べてみる。 

 

 

NがあってもgrepUCSC ゲノムブラウザで除くことができるが、それでは肝心の繰り返し領域の評価が曖昧になる。やはりNがないコンプリートな真核ゲノムを使いたいということで、100M以下の生き物で調べたところ、シゾンが完全にFinishしていた。そこでまずはシゾンのゲノムを例にアセンブルのパフォーマンスを調べてみる。Ensemblからfastaファイルをダウンロードする。

f:id:kazumaxneo:20171006194024j:plain

chromosomeが20あり、ゲノムサイズは16.7Mbである。クロロプラストゲノムとミトコンドリアゲノムは今回使わない。

 

 

ショートリードのシミュレーションデータ

Miseq v3をシミュレートできるARTを使う。

シェルスクリプト "Q30fatq_generation.sh"

# ./workflow.sh #シェルスクリプトでfastq作成、trimmingまで自動処理
#実行権をつけ、genome.fastaのあるパスに移動して./create.shでラン



#ランは "./Q30fatq_generation.sh"
cov='250'
insert='600'
size='210'
stdev='60'

#ループ処理 カレントディレクトリの’ファイル’のみを取得
for file in `\find * -maxdepth 1 -type f`; do
a=${file%.fasta}_raw_paired #rename
folder=${file%.fasta} #folder_name

mkdir $folder
#fastqを発生 後でサンプリングするため、多めに250x作る。(リンク
art_illumina -ss MSv3 -sam -i $file -p -l $size -f $cov -m $insert -s $stdev -o $folder/$a
fastqF=$folder/${a}1.fq
fastqR=$folder/${a}2.fq

#quality trimming(リンク
after.py -1 $fastqF -2 $fastqR -q 30 -s 25 -f 50 --no_overlap
mv good/* $folder
fastqFHQ=${fastqF%fq}good.fq
fastqRHQ=${fastqR%fq}good.fq
done

Miseq v3のプロファイルだと先頭35bpほどqaulityが低い。上のコードでは5'側を35-bp強制トリミングしている。

 

平均リードサイズが求まったので、ゲノムサイズから考えて必要なカバレッジになるようリードをランダムサンプリング。

seqkit sample -p $sampling $fastqFHQ > $folder/R1.fastq
seqkit sample -p $sampling $fastqRHQ > $folder/R2.fastq

ここではx100取り出す。

 $samplingは計算で求めた0~1の範囲の少数。ここでは分けて書いているが、実際は1つのシェルスクリプトにしてカバレッジ100でQ30以上のリードを取り出すまで自動処理した。

 

phread quality score 30以上のハイクオリティなリードが手に入った。リード長を確認。

user$ seqkit stats *fastq

file      format  type   num_seqs      sum_len  min_len  avg_len  max_len

R1.fastq  FASTQ   DNA   5,067,191  810,750,560      160      160      160

R2.fastq  FASTQ   DNA   5,067,191  810,750,560      160      160      160

250-bp発生させたが、QT後は平均160-bpまで縮んでいる。大きく減ったのは、illumina Miseq V3プロファイルでは5'側のアダプター直後が低クオリティなのが要因として大きい。

 

 

 

ナノポアのロングリードのシュミレーションデータ

OXTの2Dのデータ(R9.5)をシミュレートしてみる(リンク)。

wget ftp://ftp.bcgsc.ca/supplementary/NanoSim/yeast* #yeastのデータをダウンロード
read_analysis.py -i yeast_2D.fasta -r yeast_S288C_ref.fa #2Dのデータをもとにプロファイル作成
simulator.py linear -r Cyanidioschyzon_merolae.ASM9120v1.dna.toplevel.fasta -c training -n 60000 #しゾンゲノムをもとにロングリードを発生させる。リード数6万

やや多いが6万リード発生させた。 リード情報を確認。

user$ seqkit stats simulated_reads.fasta 

file                   format  type  num_seqs      sum_len  min_len  avg_len  max_len

simulated_reads.fasta  FASTA   DNA     60,000  288,693,949       35  4,811.6  214,880

平均4800-bp、max210-kbとなった。クオリティは調べていないが、2Dデータをもとに発生させているのでエラー率は10%以下と思われる。カバレッジはx17となる。

 

 

 De novo assembly

最近色々な方法論が発表されているが、まずはspadesでアセンブルしてみる (version 3.11)。

ショートリードのみアセンブル

spades.py -t 40 -k auto --careful -1 R1.fastq -2 R2.fastq -o short

 ショート+ロング。

spades.py -t 40 -k auto --careful -1 R1.fastq -2 R2.fastq --nanopore simulated_reads.fasta -o hybrid

miniasmでロングリードのみアセンブル

minimap -Sw5 -L100 -m0 -t8 simulated_reads.fasta simulated_reads.fasta | gzip -1 > reads.paf.gz
miniasm -f pacbio_filtered.fastq reads.paf.gz > reads.gfa
awk '/^S/{print ">"$2"\n"$3}' reads.gfa | fold > reads.fa

polishが手間なので今回は行なっていない。ショートリードについては、spadesからUnicyclerに切り替えてもよかった。今回は時間の関係でspadesにした。

 

Results

アセンブル結果はこんな感じ。長さtop50。

f:id:kazumaxneo:20171006205248j:plain

long read単独でもショートリードよりアセンブルは長くなっている。

 

bwa memを使い、contigをゲノムにアライメントしてIGVで様子を眺めてみる。FInishしたゲノムがなければできない方法だが、こうすることで切断部位がどうなっているか掴むことができる場合がある。

シェルスクリプト bwa-mem.shを各fastaに対して実行。

genome='Cyanidioschyzon_merolae.ASM9120v1.dna.toplevel.fasta'
contig='short_scaffolds.fasta'

bwa index -a is $genome
bwa mem -t 20 $genome $contig |samtools view -S -b - > short.bam
samtools sort -@ 20 short.bam > short_sorted.bam
samtools index short_sorted.bam

IGVを起動。

igv -g Cyanidioschyzon_merolae.ASM9120v1.dna.toplevel.fasta short_sorted.bam,hybrid_sorted.bam,long_sorted.bam,nanopore2D_sorted.bam,nanopore1D_sorted.bam

f:id:kazumaxneo:20171006212517j:plain

上からshortのみ、hybrid、longのみ、そしてシミュレートしたナノポアのリードをマッピングしたものとなる。一番下は同様のやり方で発生させた1Dのデータをマッピングしたものである(ナノポアのリードは-x on2Dをつけてbwa memを走らせている)。一番切れている部位が少ないのはhybrid-assemblyで作ったcontigである。longのみだとたまにアセンブルされていない領域があるようである。カバレッジがまだ飽和していないのかもしれない。

 

 

ACTでも比較してみる(リンク)。long readのみでアセンブルされたcontigはhybridと傾向が似ているので除く。

bwast.py -a short_scaffolds.fasta hybrid_scaffolds.fasta

 

f:id:kazumaxneo:20171006211123j:plain

一番上が公開されているゲノムで、boxがchr1~20まで並んでいる。真ん中がhybridのcontigで、一番下がshortのみのcontigである。hybridのcontigはchr全体とアライメントされているものが多い。一方、shortのみのcontigは線画あちこちのcontigから出ている。まだまだバラバラの状態ということになる。

 

例えばchr11を少し拡大してみる。

f:id:kazumaxneo:20171006211808j:plain

 黄色の部分がchr11だが、一番上の段のゲノムと真ん中の段のhybridのcontigは1:1で対応しているのに対し、hybridと一番下のshortの比較では shortのみのcontigは線があちこちに散らばっている。これはshortのみのcontigはロングより小さなcontigにまだ分かれているということである。

 

chr13をIGVでも見てみる。

f:id:kazumaxneo:20171006212948j:plain

shortのみのcontigでは何度も切れている部位があることがわかる。

 

もう1つ他のchromosomeを見てみる。下はchr3。

f:id:kazumaxneo:20171006214326j:plain

切れている領域を拡大。ショートリードで全然繋がらない部位もロングリードがあれば繋がっている。

f:id:kazumaxneo:20171006214330j:plain

 

 

hybridアセンブルの結果をbandageを使いgraphパスで確認する(やり方)。

f:id:kazumaxneo:20171014172614j:plain

クロモソームレベルのアセンブリができているためか、長いscaffoldは単独のものが多い。

 

今回は面倒なのでやっていないが、jellyfishなどでk-merを指定して配列を書き出し、それをゲノムに当てれば繰り返し領域の部分がカバレッジの肥大部位として可視化できます(ついでにwigに変換してもO.K)。切れた部位とリピートの関係を調べるために、k-merのサイズを変えてやってみると面白いと思います(どこまでk-merサイズをあげれば繋がりうるか推定できる)。

 

 

 

 

 

 

次はゲノムサイズ41MのZymoseptoria_tritici.MG2。やはりNがない完全にFinishしたゲノムになっていたので選んだ。

f:id:kazumaxneo:20171006214914j:plain

Ensembl fungiより。クロロプラストゲノムとミトコンドリアゲノムは今回使わない。

 

シゾント同じ手順でQ30以上のショートリードx100と、ロングリードを6万リードだけ発生させた。

user$ seqkit stats *

file                   format  type    num_seqs        sum_len  min_len  avg_len  max_len

R1.fastq               FASTQ   DNA   19,025,739  3,044,118,240      160      160      160

R2.fastq               FASTQ   DNA   19,025,739  3,044,118,240      160      160      160

simulated_reads.fasta  FASTA   DNA       20,000    164,947,284       90  8,247.4   59,524

 

このケースではゲノムサイズが40Mbなので、ロングリードのカバレッジはx4にしかならない。そのためかMiniasmではアセンブルできなかった(極端に短いcontigが少しだけできた)。つまりこのケースでは、ショートリードだけでおそらく完全なアセンブルはできないし、ロングリードだけでもアセンブルできないということである。カバレッジとしてはごくわずかなロングリードを混ぜることで、アセンブルはどこまで改善するだろうか?

 

以下がアセンブル結果をblastnで比較しACTで描画したものである。 一番上が公開されているゲノム、真ん中がhybridのcontig、一番下がshortのみのcontigである。

f:id:kazumaxneo:20171008234921j:plain

シゾンのケースほどhybrid assemblyは完全ではない。chr1を拡大してみる。

f:id:kazumaxneo:20171008235231j:plain

上のオレンジ部分が公開されているゲノムのchr1だが、それと下のhybrid assemblyの位置を対応させる黄色の線はあちこちから出ていることがわかる。

 

IGVでも確認してみる。上がhybrid assemblyのscaffold、真ん中がshort readのみのassembly、一番下がnanoporeの2Dリードである。scaffoldが切れている中央部位に2Dリードがないのがわかる。だが一方で、short readのみで得られたcontigよりcontiguityは改善している。

f:id:kazumaxneo:20171009001205j:plain

 

拡大してみる。

f:id:kazumaxneo:20171009002556j:plain

左のほうの部位は、ショートリードで切れている部位にロングリードが存在しており、そのため、hybrid assemblyでつながったと推測される。一方、真ん中の部位は、ロングリードがシーケンスされておらず、そのためhybrid assemblyでも切れていると推測される。hybrid assemblyでも切れている他の部位も確認したが、 ロングリードが見つからなかった。2Dのraw long readで4xというスループットはchromosomeレベルのアセンブリには不十分かもしれない。

 

14xのロングリードでやり直した。quastで評価する(使い方)。

f:id:kazumaxneo:20171012012659j:plain

 左端からillumina only、真ん中がillumina+2D_read(x3)、右端がillumina+2D_read(x14)。

f:id:kazumaxneo:20171012012816j:plain

 

が illumina only、がillumina+2D_read(x3)、がillumina+2D_read(x14)。

やはり14xの方が良い結果が出ている。このhybridアセンブリの結果をbandageを使いgraphパスで確認する 。

f:id:kazumaxneo:20171014173610j:plain

シゾンの結果と似ているが、シゾンよりは線が絡まったlong scaffoldが多い印象を受ける。long readがまだ足りないのかもしれない。例えば中央左寄りの真っ黒になったcontigを拡大してみる。

f:id:kazumaxneo:20171014174010j:plain

さらに拡大。lengthを表示。大半が500bp以下の極端に短いcontigである。

f:id:kazumaxneo:20171014223002j:plain

coverageに切り替えると、短いcontigのカバレッジが左右の長いcontigの倍以上あるものが多いことがわかる。

f:id:kazumaxneo:20171014223112j:plain

 

どうやらこのような繰り返し配列がクラスターを作った非常に複雑な領域があるらしい。そこでアセンブルが止まっていると推測される。

 

 

genomeがコンプリートにどれだけ近づいているかは、登録されている遺伝子がどれだけ出てくるかで1つ評価できる。FTPサイトにcomplete cDNAがあったので、cDNAが部分的でもscaffoldからいくつ見つかるかで評価してみる。方法としては不完全だが1つの指標とはなる。

cDNAセット 10967個

illumina only (x100) => 10966 hit

illumina (x100) + 60000 long read (3x) => 10966 hit

illumina (x100) + 200000 long read (3x) => 10966 hit

 

cDNAが部分的にヒットすればカウントしているので(blastn使用 <1-e-10)、かなり誤差はあるだろうが、illuminaのリードだけでも遺伝子ははほぼフルセットあるのかもしれない。つまり、目的がゲノムを決めることでなくwhole genome re-sequencingによる変異部位特定にあるなら、illuminaのデータセットだけでも勝負できる可能性が高いことを意味している。ただしこれはゲノムの複雑さによって変わってくるもので、ゲノムサイズが100-Mbほどの程よいサイズとしても、ヒトのようにリピートが非常に多くて、変異の多くがcopy umber variationとして効いてくる生き物ではショートリードのアセンブルだけでは難しくなると考えられる。ただし、それがどのくらい影響してくるのか判断するのはとても難しい。

 

 

 

 

遺伝子情報のない新規ゲノムならBUSCOなどの評価手法を使う。BUSCOは以前紹介しています。


 

 

 

補足

今回、1Dのデータではエラーが多くてminiasmやcanuでアセンブルはできないし、bwa mem -x 0n2Dでもほとんどアライメントできなかった。これはつまり、汚すぎてエラーコレクションかpolishでなんとかしないと使えないリードになっていることを意味する。

そのあたりの手法については徐々に論文で報告され初めてきています。今後紹介していきます。

 

 

 

 

 

 

MinIONでシーケンスを行う

1随時更新

 

MinION(ミナイオン)でシーケンスする流れを説明する。

 f:id:kazumaxneo:20171006192519j:plain

ナノポアに関しては模索中の段階です。書いていることが必ずしも正しいとは限らないことに注意してください。

 

wiki

MinION (Oxford Nanopore) - wiki

 

公式ツイッター

 

LONDON CALLING 2022



TOPICやPRESENTATION TYPEでスピーカーの絞り込みが可能

 

追記

動画マニュアルリンク削除 & HTMLマニュアルについて追記

 

公式のリンクをいくつか貼っておく。

White papers

https://nanoporetech.com/resource-centre/white-papers

Videos

https://nanoporetech.com/resource-centre/videos

Posters

https://nanoporetech.com/resource-centre/posters

London Calling 2017

https://nanoporetech.com/events/ncm17/watch

London calling 2018 (2018 5/24-5/25)(動画のほか、ダウンロード可能なposterもアップされています)

https://londoncallingconf.co.uk/lc18

Rapid Lambda Control Experiment (SQK-RAD004) protocol PDF

https://store.nanoporetech.com/media/wysiwyg/Rapid_Lambda_Control_Experiment_SQK-RAD004_.pdf

DNA extraction protocol

https://community.nanoporetech.com/extraction_methods

  

2018 3/27 追記 3/27に登録されたPreprintです。樹木(Eucalyptus pauciflora)を材料にしています。DNA抽出とライブラリ調整前に読むべき内容です。

A comprehensive toolkit to enable MinION sequencing in any laboratory

https://www.biorxiv.org/content/biorxiv/early/2018/03/27/289579.full.pdf

 

2017年10月現在、フローセル2個とrapid sequencing用の試薬が全て入ったお得なStarter kitを購入することができる。Rapid sequencing kitはLigation seqeucing kitよりスループットは劣るが(Ligation seqeucing kitの70-80%くらい出る)、トランスポザーゼでDNAを処理してアダプターをつけることで、ライブラリ調整を10分程度で行うことができる(PCR必要なし)。starter kitを購入すれば、追加投資がなしにシーケンスを行うことができる(後で記載したUSB3.0 typeCのケーブルは別途必要かも )。

https://store.nanoporetech.com/rapid-sequencing-kit.html

Rpaid sequencingには、DNAを500~1000ngくらい抽出しておく必要がある。DNAがあまり取れない生物では、これはデメリットになる。もう1つ注意点として、starter kitについてくるフローセルはR9.4の1D専用フローセルで変更不可のようである(未確認)。よりハイクオリティな2D(1Dx2)シーケンスを行うには、R9.5のフローセル(リンク)を購入する必要がある。また、オックスフォードナノポア社では、Minion以外のPromethIONやGridIONなどのシーケンサーも選択できる。ゲノムサイズが大きければこれらを選ぶのも手であるし、フローセルをまとめ買いすると少し安くなる様なので、Minionで十分量読むまでひたすらシーケンスする選択もあるかもしれない。

 

シーケンス精度の変化(平均と中央値)。

f:id:kazumaxneo:20180714182157p:plain

From squiggle to basepair: computational approaches for improving nanopore sequencing read accuracy (Franka J. Rang et al, 2018)より。

 

MinionをつなぐMACWindowsのハードウエアチェック

https://nanoporetech.com/community/lab-it-requirements

必要な実験器具(外でやるなら工夫する必要がある)

https://nanoporetech.com/sites/default/files/s3/rapid-sequencing-requirements.pdf

MACやPCの設定

https://nanoporetech.com/sites/default/files/s3/MinION-Computer-Requirements-March-17_Final.pdf

 

 

DNA抽出

DNAの抽出は、コストを気にしないならカラムを使った方法が良いと思われる。例えば、Pacbioでは

などを推奨しているが、nanoporeでもこれらのキットが使える(*1)。ただし動物、植物、昆虫、真菌、バクテリア、ウィルスなど生物により夾雑物の種類は変わるので、一概には言えない。初めてナノポアを使うなら、論文をいくつか読んで、パフォーマンスが良さそうな方法を調べておいた方が良い。DNAが汚いと、全然読めない可能性もある(本当は失敗した方法が知りたいが、そういったデータは論文にならない)。

追記 上にもリンクを載せたが、ヒト、ブタ、ウサギの血清、Spinach、yeast、E.coliなどの DNA Extraction methodsのPDFがダウンロードできる。

https://community.nanoporetech.com/extraction_methods

E.coliなら、 O.D0.5でクロラムフェニコール入れて1時間培養し、QIAGEN Genomic-tip 500/G でDNA抽出。Minionの出力は8Gb/48h。リード長は下(公式より転載)。

f:id:kazumaxneo:20180321155334j:plain

コストを気にするなら、磁気ビーズを使った高分子量gDNA抽出プロトコルも報告され始めている。

 

追記

まずこれを読む。大変勉強になる。

http://lab.loman.net/2018/05/25/dna-extraction-book-chapter/#__RefHeading___Toc505877554

 

追記 Protocols.ioにDNA抽出プロトコルが上がっています。

1、

High purity, high molecular weight DNA extraction from rust spores via CTAB based DNA precipitation for long read sequencing protocol by Ramawatar Nagar

2、

High molecular weight gDNA extraction after Mayjonade et al. optimised for eucalyptus for nanopore sequencing protocol by Miriam Schalamun

3、

https://www.protocols.io/view/high-quality-dna-from-fungi-for-long-read-sequenci-k6qczdw

4、

Nuclear DNA purification from recalcitrant plant species for long-read sequencing protocol by Ashley Jones

 

5、ONT HPのExtraction methods(log inしておく必要あり。プロトコルのPDFをダウンロードできる)

https://community.nanoporetech.com/extraction_methods

f:id:kazumaxneo:20190111104252j:plain

 6、High Molecular Weight DNA Extraction from Recalcitrant Plant Species for Third Generation Sequencing 

7、Ultra-long Read Sequencing for Whole Genomic DNA Analysis

 8、2019 9/29

High molecular weight DNA isolation method from diverse plant species for use with Oxford Nanopore sequencing

 

2020 2/28 ビデオジャーナルの論文のリンクをいくつか張っておきます。


 

 

 

 

DNAの純度

Minionのシーケンスにはハイクオリティなlong DNAが必要である。

Oxford Nanopore社のHPに記載されているCriteriaを載せておく。

  • Purity as measured using Nanodrop - OD 260/280 of 1.8 and OD 260/230 of 2.0-2.2
  • Average fragment size, as measured by pulse-field, or low percentage agarose gel analysis >30 kb
  • Input mass, as measured by Qubit - 10 pg
  • No detergents or surfactants in the buffer

DNAの定量は、low bind tubeに溶かし、Qubitなどの蛍光法により行う。Nanodropなどを使った260nmの測定はRNA、NTP、ごく微量のフェノールなど様々な夾雑物に影響を受けるため、はっきり言って全くあてにならない。夾雑物が疑われるなどの理由でDNA抽出後に追加精製を行うなら、Pacbioのガイドで勧められているフナコシのPowerClean DNA Clean-Up Kitなどが良いかもしれない。土壌サンプル向けのカラムキットで多糖類や腐食酸も除けるようである。

追記 上にリンクを貼ったprepirntでは、260/230が"1程度"の低いサンプルは、シーケンススループット1桁くらい落ちている(Preprint 表1)。

 2019 6/19 追加

London Calling 2019: Stella Loke

Optimising Plant DNA extraction for nanopoe sequencing


 

 

DNAの長さ

長い切れていないDNAを抽出できれば、それだけ長いDNAを読む率が長くなる。カビのゲノム解析のペーパー(リンク)では、ゲノム抽出後にBlue Pippinでサイズセレクションすることで、平均サイズが大きく向上したと報告されている。また、このサイズセレクションを行うタイミングは、ゲノムをとった後でなくライブラリ調整後がベストらしい(Omics! Omics!: Nanopore Workshop Notes)。Blue Pippinは国内では日本ジェネティクス社から買えるようである(リンク)。大崎さんのBlue Pippin解説(リンク)。

高分子のDNAを回収するには、DNAの調整時の取り扱いも細心の注意を払う必要がある。ナノポアHPには以下のように記載されている。

  • Using wide-bore pipette tips to handle the gDNA
  • Mixing gently but thoroughly by inversion, as opposed to vortexing or pipetting
  • Avoiding unnecessary freeze-thaw cycles
  • Avoiding pH <6 and >9
  • Avoiding high temperatures, which can lead to degradation

特に抽出後の確認の電気泳動でゲノムがスメアになっているようなサンプルは使うべきではない。

追記

カラムを使わず低コストに高分子量genomic DNAを抽出する方法

Extraction of high-molecular-weight genomic DNA for long-read sequencing of single molecules

https://www.future-science.com/doi/full/10.2144/000114460#

 

キットのプロトコル

https://community.nanoporetech.com/protocols 

f:id:kazumaxneo:20190111104147j:plain

 

2019 1/11 追記

追加精製

どのような技術でDNA抽出したとしても、ラン前にSPRI技術で追加精製して2kb以上のDNA断片をエンリッチすることで、より効率的なシーケンシングが可能になります。詳細は、上にリンクを載せたExtraction methodsの、SPRI size selection protocol for >1.5-2 kb DNA fragmentsを確認して下さい。以下のHPも参考になります。 

https://albertsenlab.org/all-i-want-for-christmas-is-a-terabase-of-nanopore-data/

 

2019 9/13 

publishから時間が経ってますが、以下の論文にはシーケンシングを成功させるノウハウが詰まっています。植物を使っている人以外も読んだ方がいいと思います。

https://onlinelibrary.wiley.com/doi/full/10.1111/1755-0998.12938

 

ラン

簡単に流れを載せておきますが、Oxfordナノポアのシーケンス技術はコミュニティベースで進化し続けています。ラン前にプロトコルがバージョンアップしていないか、MinKNOWのアップデートはないか確認しておいて下さい。

https://store.nanoporetech.com/media/wysiwyg/Rapid_Lambda_Control_Experiment_SQK-RAD004_.pdf

 

0、ソフトウエアのインストール

log inしてから右側のsoftware Downloadsを選択。

f:id:kazumaxneo:20190309163229j:plain

端末で動くGuppyやAlbacoreもダウンロードできる。

f:id:kazumaxneo:20190309163437j:plain

 

 

 

1、ライブラリ調整

1DのR9.4フローセルのRAD-003のプロトコルに従う。~400 ng DNAを7.5µlのボリュームで用意する必要がある。

追記: input DNA量についても、上のPrepirntが詳しく触れられている。DNA repair and end-prepは、0.2pmolのDNAに対して最適化されていると書かれており、これは平均8kbの2本鎖DNAだと1ugになる。平均24kbだと3ugになる(Sequencing library preparationtyより)。

 

2、フローセルの準備。

フローセルを冷蔵庫から取り出し、ダミーセルと交換する。

 

3、ソフトの立ち上げ 

MinionをつなぐPCから専用ソフトのMinKNOWを立ち上げる。MinKNOWは購入者のログインページから検索すれば見つかるので、前日までにインストールしておく。

MinKNOW立ち上げ時、ホストマシンはネットに接続して、さらにUSB3.0を介してMinionをつないでおく必要がある。

 

我々だけかもしれないが、MinionのUSB3.0 CタイプポートとPCをつなぐUSB3.0のケーブルが同封されていなかった(間違いでしたらすみません)。

修正 ↓入ってます。

f:id:kazumaxneo:20190325144227j:plain

 

初めにQCを行う。

f:id:kazumaxneo:20171004234023j:plain

 

 

3、サンプルの投入。

ランの手順はナノポア公式ページに動画で説明されている(購入者アカウントでログインして、以前は右上の検索ウィンドウから"Priming the SpotON Flow Cell Print step"で検索)説明動画(写真のキャプチャ)にリンクしていたが、2018年3月に確認したところ、HTMLマニュアルに切り替わっていた。

Minionのページからマニュアルのリンクに飛ぶことができる(Log inしている必要あり)。そこではランニング手順が記載されている。

3-1~

f:id:kazumaxneo:20180313144403j:plain

f:id:kazumaxneo:20180313144420j:plain

5-1

f:id:kazumaxneo:20180313144509j:plain

f:id:kazumaxneo:20180316133628j:plain

f:id:kazumaxneo:20180316133648j:plain

f:id:kazumaxneo:20180316133650j:plainこの後もHTML manualは続いている。公式ではlambdaを使っているが、サンプルも同様の手順でランできる。

 You tubeに動画があったのでそれを載せておく。

 

ポートは弁の役割も果たしているので、動画の順番通りに進める必要がある。我々はををランを一回止めてサンプルを途中で追加投入する際に、priming portを開けてなかったためサンプルがうまくロードできなかった(吸い戻してなんとかリカバーした)。

 Live base callを選択すると、リアルタイムで徐々にfast5からfastqに変換してくれる。ただしこれには時間がかかる様である。

 

ラン前。

f:id:kazumaxneo:20171006171649j:plain

 

poreの活性を表示する画面(数時間後)。

f:id:kazumaxneo:20171004233319j:plain

 

こちらはラン10分後のリード長分布。

f:id:kazumaxneo:20171006171828j:plain

時間とともに、長いリードも増えてくる。 

 

36時間ラン後。まだいくつか緑のセルがある。

f:id:kazumaxneo:20171006164032j:plain

48hランすると数万リード得られる。ただしサイズ分布によってリード数は当然変わってくるので、ライブラリによってリード数は大きく変わってくる。(ロングを1-2万読んだデータと、100bp以下のジャンク(10-20%エラーを含むショートリード)をたくさん含む10万リード(5倍)、どっちがアセンブルに有利だろうか)。

 

 

 

ポアの色は以下のように説明されている。

f:id:kazumaxneo:20171006163619j:plain

f:id:kazumaxneo:20171006163607j:plain

f:id:kazumaxneo:20171006163627j:plain

f:id:kazumaxneo:20171006163631j:plain

f:id:kazumaxneo:20171006163638j:plain

f:id:kazumaxneo:20171006163644j:plain

f:id:kazumaxneo:20171006163654j:plain

f:id:kazumaxneo:20171006163702j:plain

f:id:kazumaxneo:20171006163709j:plain

f:id:kazumaxneo:20171006163713j:plain

f:id:kazumaxneo:20171006163718j:plain

  •  ラン中のポアは、まずAdapterの黄色になり、それからしばらくすると緑のポアに変わっていく(時折だが一瞬色が変わることもある)。リードが取り込まれてアダプターから徐々にDNAが読まれているからと考えられる。
  • 黒色は完全にダメになったポアである。また、オレンジも1つの区画に複数ポアがあるもので、信号が混在してしまい利用できないセルとなる。
  • 青いセルも出てないセルである。ただし、途中でサンプルを追加投入すると青の区画も緑に戻るものがいくつかあった。完全にダメなセルではないらしい(未確認)。
  • データは指定したディレクトリにどんどん追加されていく。他の方の情報によると、4000リードくらい読むと次のフォルダに切り替わるらしい。48hランすると、いくつかのフォルダができることになる。

公式HPの説明を貼っておく。

f:id:kazumaxneo:20180313145001j:plain

 

追記

Miriam Schalamunさん達のPreprinrtで、"ratio of ‘in strand’ (light green) to the sum of ‘in strand’ plus ‘single pores"を最初の数時間評価し、占有率が悪い時はwashすることを述べている(図8より)。

 

コマンドラインで動く basecallerもいくつか発表されています。albacoreとguppyはoxford nanoporeのオフィシャルbasecallerです。

 

スループット

ポアの活性やサンプル品質に大きく左右されるので一概には言えないが、読み取り速度は450bpsに調整されているらしい。ここでは2G出力されたと報告されている。また、ヒトゲノムをアセンブルしたという報告では39台のMinionを使い、トータル14,183,584 リード得て、トータル長は91,240,120,433 baseだったと述べられている(30x)。ということは、1台あたり平均363681リードで2.3Gb (23億)読んだことになる。データの大半はLigation kitで構築されたライブラリ由来らしい。本当なら素晴らしいスループットである。また、Nanopore R9 rapid run data release · Loman Labsでも1Dで2G、2Dで0.6G読めたと報告している。

ただし、http://seqanswers.com/forums/showthread.php?t=71774では0.5Gに達しなかったという話もある。SRAに登録されているデータを見ると、さらにばらつきが多い。この登録データでは7台のMinionを使っているようだが、スループットに大きな開きがある(バーコードシーケンスと書かれていないが、もしかしてバーコードシーケンス?)。

また日本でシーケンンスする場合、イギリスで作られて発送されるため、shippingで2週間くらいはどうしてもかかってしまう。その影響はどれくらいあるのだろうか?(早く届くこともあります。前回頼んだ時は1/24に注文して1/28にshipping、30に届きました)。

 

上記のリンクのLoman labでは、E.coliを1Dと2Dで読んだデータを公開してくれています。興味がある人はアクセスしてみてください。中盤のリンクから1Dと2Dのfast5データと、変換済みfastaがダウンロードできます (fast5は200~300GBくらいあります)。

Nanopore R9 rapid run data release · Loman Labs

 

追記

1、2018年3月に知り合いが行ったシーケンスでは、3.2Gbと6.1Gb読めていました(raw fastq)。

 2、https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5803254/

この論文ではONT Ligation Sequencing Kitで調整したシロイヌナズナゲノムをMinionでシーケンスして3.4Gbの base callを得ています。200kb以上のリードも4本得られたと書かれています。miniasmなどでアセンブルするのが構造変化を検出するためにシンプルで最短の方法だと結論付けています。

3、上にもリンクを貼ったPreprint(リンク)では 、R9.5で安定して6-8Gb読めています。

4、複数のbacteria菌株のシーケンスとアセンブリパフォーマンス比較。MiseqとMinionのハイブリッドアセンブリを行なっている。bacteriaのロングリードシーケンシングでどのくらい読めばいいか参考になる。

https://www.biorxiv.org/content/biorxiv/early/2018/07/05/362673.full.pdf

 

 

 

 

まとめ 

ナノポアのシーケンスに求められるのは"長さ"である。リード数が少なめでも、リピートをカバーできるだけのロングリードが読めていれば、その分だけアセンブルにとって有利になるし、ライブラリ中に1000bp以下の分子のコピー数が多く残っていれば、どれだけリードがたくさん読めていても、アセンブルのcontiguityの改善には限界がある。いかに切れていない綺麗なDNAを抽出してランできるかが結果を左右する。

 

 参考資料

Sample preparation and DNA extraction in the field for nanopore sequencing · Loman Labs

 

http://seqanswers.com/forums/showthread.php?t=21280

 

http://seqanswers.com/forums/showthread.php?t=76021

 

2016年nanopore ワークショップに参加した研究者の方の記事

Omics! Omics!: Nanopore Workshop Notes

 

SSDの容量について(ログインが必要)

https://community.nanoporetech.com/posts/is-260gb-of-disk-space-eno

 

R9スループット

http://lab.loman.net/2016/07/30/nanopore-r9-data-release/

 

 

追記 2018 09/25

Oxford Nanopore Technologiesの宮本さんが、ブログにアセンブリとSV検出の流れをアップされています。


ナノポアシーケンサーMinIONインプレッション

ナノポアシーケンサーMinIONインプレッション | 酵母とシステムバイオロジー

 

追記 2018 10/06

MinIONとGridIONのフローセルが新しくなったようです。読み込み速度が強化され、耐久性も72hに伸び、アナウンスによると30Gbのyieldが期待できるようです。

f:id:kazumaxneo:20181006110059p:plain

f:id:kazumaxneo:20181023143654j:plain

Oxford Nanopore releases ‘Rev D’ flow cells, enabling increase in data yields 

 

追記 2018 10/23

Nanoporeには様々なbasecallerがありますが、Ryan Wickさんがbasecallerを変えた時の違いを調べてまとめられています。

base call時点で大きな違いが出ていますが、nanopolishでmethylation-aware オプション付きでpolishingする限り、polish後の配列のエラー率に差はほぼなくなるようです。

 

*1

Nanopore公式ページで、枯草菌から複数のキットでDNA抽出してシーケンシングした時のフラグメントサイズ結果が掲載されている。使っているのは、QIAGEN Genomic-tip 500/G、QIAGEN MagAttract HMW DNA Kit、Circulomics Nanobind DNA Kit、QIAGEN Puregene Yeast/Bacteria Kit bになる。シンプルなワークフローで高分子DNAが十分に回収できるMagAttractか、とにかくより高分子DNAが取れるPuregene Yeast/Bacteria Kit(ただし収量が少ない)の使用が推奨されている。また、いずれの方法でも、シーケンシング前にSPRI技術を使ったサイズセレクトを行うことが推奨されている(参考)。(生物によっては、この方法だけで高分子gDNAが取れるとは限らないことに注意してください。細胞壁の破砕、エンドヌクレアーゼの不活性化、不純物によるカラム目詰まり、など想定しておくことはたくさんあり得ます)。

f:id:kazumaxneo:20190111105638j:plain

Nanopore公式ページより転載。やりすぎると非常に短いプラスミドも消える可能性があります。実験の目的に合わせて考えて下さい。

 

ロングリード関連のツール

 

2019 3/2追記

面白いものが出てますね。原理は不明ですが低分子DNAを除去できるようです。

https://community.nanoporetech.com/posts/circulomics-short-read-eli

f:id:kazumaxneo:20190302202739p:plain

追記

この試薬に限らず当たり前の話ですが、処理することでかなりモル数は減ります。処理後ナノポアでランできるできるだけのDNAを想定して使わないと量が減って失敗します。ご注意ください。

2020 1/26 (植物)うまく使えば、かなりの高分子DNAを精製できるようです。

 

 

 

2019 3/10追記

日本ゲノム微生物学会 ニュースレターMinION Q&A(16ページ)

https://www.sgmj.org/pdf/newsletter/sgmj_no17.pdf

 

Stack Exchange  --Bioinformatics--

Questions tagged [nanopore]

https://bioinformatics.stackexchange.com/questions/tagged/nanopore

 

2019 3/15追記

ついに出てきましたね。

 

2019 3/18

Flongleが買えるようになりましたね、MinIONかGridIONのデバイスに取り付けて、MinIONより小スケール(126チャネルでMinION の512ポア相当)でランできます。値段は日本円でおよそ60万くらいで、48フローセル付いていて、1年間で小分け出荷できるようです(要確認)。1本あたり110米ドルくらいの計算で、16S/18Sアンプリコンやスモルーゲノムシーケンシングに適してそうですね。そのうちイールドの報告も出て来ると思いますのでtwitterチェックしておきましょう。

f:id:kazumaxneo:20190318180422j:plain

 

2019 3/22 

 

2019 6/6

マーケティング上の理由なのかイールドが足りないのが理由はよくわかりませんが、Flongleが12パックでも購入できるようになってますね。

f:id:kazumaxneo:20190606120522j:plain

 その後、1−2個から購入可能になっています。

 

知人がフロングルについて問い合わせた時の回答  

Flongleのフローセルと、MinIONで使用するフローセルとの違い

フロングルは

・126チャネル(MinIONは512)

・フロングルランタイム:約16-24時間

・フロングルフローセルの前にCTCとアダプターが送付される

・フロングルフローセルは一回使用のみで返却の必要なし

・MinION/GridIONのみに使用可能

・9.4.1ポア(1D2キットとは使用不可)

・使用期限:4週間

・保存温度:通常のフローセルと同様

・推奨温度と使用期限を守り、使用前のQCポア数60以下だった場合交換対応

・ Flow cellで1.8Gb記録(22時間ラン)

・アダプターはのちにストアにて販売予定だが、現在必要な場合はフロングルのスターターパックを再度購入する。

 

7/5 Protocol.ioにmicroalga向けのDNA抽出プロトコルが上がってます。


2019 8/21 

Nanopore Day, Tokyo に関するツイート

 

Nanopore Day, Tokyoに行った人から聞いた話を2点追記。話半分で聞いてください。

  • DNAが減ってきてDNAがない状態で電荷がかかり続けると、ポアが早く傷んでしまう。よって減ってきたら素早くウオッシュし、DNAを追加する。これを繰り返すことでシーケンスイールドを上げることができる(=48h放置は良くない)。
  • 良くなっているが、R10は結構厳しい。dual channel?で読んでいるが、まだ発展途上。(当たり前だが)TGSの問題であるホモポリマーシーケンスエラーは解決していない。

 

#GenomeScience2019 - Twitter Search

 

Rocky Mountain adventures in Genomic DNA sample preparation, ligation protocol optimisation / simplification and Ultra long read generation

Rocky Mountain adventures in Genomic DNA | Long read club

 

 

R10のパフォーマンス

http://albertsenlab.org/ar10e-we-there-yet/

 

 Fire Monkey HMW DNA extraction

https://revolugen.co.uk/revolugens-dna-extraction-technologies/

良さそうですね。 

 

有償のワークショップもあります。

https://store.nanoporetech.com/catalog/product/view/id/272/category/25?utm_campaign=Japan&utm_source=hs_email&utm_medium=email&utm_content=78612458&_hsenc=p2ANqtz-9dROSHJK9PwRT-bJXwW-NMnGJEZIZqRM1PBhRsxgrdC9InGRun92TAYLC93C4bkATBrEgavzrPY2OtcoKgSBcoPTu25aXBMyZJ-Tv6BmIREd0JG98&_hsmi=78636051

 

2019 12/6追記

 

2020 1/14 

R10.3

 

2/22

 

3/15

"We provide a high-resolution map of SARS-CoV-2 transcriptome and 22 epitranscriptome using nanopore direct RNA sequencing and DNA 23 nanoball sequencing."

 

 4/5

 

5/9


6/19

 

7/26

Brassica napusゲノムアセンブルの査読前論文。"6X with reads longer than 100Kb"などのウルトラロングシークエンシングをしている。テクニック全般において非常に勉強になる。真核生物のゲノムアセンブリに取り込んでいる人は必読。

https://www.biorxiv.org/content/10.1101/2020.07.22.215749v1

(2020年12月にpublish;  https://academic.oup.com/gigascience/article/9/12/giaa137/6034787

 

Potato

https://academic.oup.com/gigascience/article/9/9/giaa100/5910251

 

10/21

精度がほぼQ20に達する。

 

11/25

 

12/7

 

12/21

 

12/26

 

2021

1/21

 

 

2/2

精度がQ20を超える

 

植物の組織サンプルから開始し、7日以内に高品質のドラフトゲノムを作成するための完全なデノボ植物ゲノム作成ワークフローの設計 (ONT & Pacbio)。

 

ロングリードライブラリ調製に使用される試薬のゆっくりとしたピペッティングを自動化する3Dプリント可能な装置。手動のスローピペッティングに比べてライブラリーの平均リード長を増加させた。

 

MinIONを使用したSARS-CoV-2ゲノムのRNA抽出からハイスループットシークエンシング、及びオンライン可視化ツールを使用した解析までの包括的な作業プロトコル

 

2/23 

小さなプラスミド配列を回収する能力を評価する目的で、ライゲーションライブラリとラピッドライブラリのアプローチを比較している。

Recovery of small plasmid sequences via Oxford Nanopore sequencing | bioRxiv

 

3/1

 3/3

3/4

ロングリードメタゲノミクスのための高分子量DNA抽出法を比較した。メタゲノミクスの観点からは、非常に長いシーケンスよりも中程度の長さのシーケンス(10〜50kbp)がたくさんある方が興味深い。それはアセンブリメトリクスを改善し、より多くのシングルコピーコア遺伝子とrRNA遺伝子で分類学的プロファイルにも影響を与える。

2022 1/25 Mol Ecol Resour. 2022 Jan 23. doi: 10.1111/1755-0998.13588 (pubmed)

 

3/6

 

 3/25

 

4/23

 

5/8

 

5/17

 

5/19

登録して参加しましょう!

 

5/20

Oxford Nanopore Events アカウントをフォローしておくと、今回のオックスフォードナノポアカンファレンスの要点を知ることができます。

いくつかツイートを貼っておきます。

 

5/24

 

6/2

ヒトGRCh38やシロイヌナズナTAIR10参照ゲノムのように、最も精査されたゲノムでさえ、生物学的に重要なセントロメアやその他の大きな繰り返し領域を表現できていない。このプレプリントでは、ウルトラロングリードシーケンシングを用いて、5つのセントロメアをすべて解明したCol-CENシロイヌナズナゲノムアセンブリを構築した。

 

 6/7

 

6/15

 

7/1

 

7/15

 

7/17

純粋な高分子量DNAの抽出には限界があり、植物や菌類では特に困難である。この問題を解決するために、本研究では、ロングリードシーケンシングのための高分子量DNAの抽出、クリーンアップ、サイズ選択のプロトコルを紹介する。紹介するプロトコルを用いて、オックスフォード・ナノポア社のMinIONでシーケンスを行うと、リード長N50値が30-50kb、リード長が200kbを超え、出力が15-30Gbpになる。これは、様々な植物、真菌、動物、バクテリアのサンプルでルーティンに達成された。

 

 

ONTによるゲノム配列の決定とアセンブルには、ロバストな実験デザインが必要だが、真核生物を対象とした研究はほとんどない。いくつかのモデル生物のシーケンスおよびアセンブリのベストプラクティスを特定するために、シミュレーションおよび経験的なONTとDNAライブラリを使用した新しい結果を紹介する。


9/8

バナナゲノムのT2Tアセンブリ(バージョン4アセンブリ)の報告。ONTのリードも使用されていて、いくつかのアセンブラを検討した結果、NECATが一次アセンブリに使用されています(Supplementary Table.8に比較結果)。結果を見ると、リピートはかなり存在していますが、DH Pahangというホモ接合2倍体が使用されていて、これがアセンブリが奏功しているポイントの1つになっているのでしょうか。


9/21

 

10/8 (9/23のツイート)

 

10/19

低入力量での抽出およびライブラリ調製アプローチを評価する実験を考案した。従来のスピンカラムを用いたDNA抽出ではなく、磁気ビーズを用いた最適なビーズビート法を用いることで、分子の長さ、インテグリティスコア、DNA収量のいずれも向上することが分かった。考案した迅速な抽出プロトコルと低入力量のライブラリ構築により、単一の昆虫(Drosophila melanogaster)から、125Mbp / 参照ゲノムの85 %、BUSCO遺伝子の96.9%以上を網羅し、コンティグN50が1.2Mbp以上で、染色体アームサイズのコンティグを含むデノボアセンブリを、600GBP以下の安価な消耗品コストで生成することができた。

 

Adaptive sampling

 

11/11

 

12/4

注;duplexリードは、は1分子DNAのtemplate鎖とcomplement鎖を連続してシークエンシングして得られる新方式のリード。上のツイートの通り、条件が揃えば非常に高い精度の配列決定結果を得られるらしい。2021年5月の発表

 

12/31

ナノポアセンサーアレイ技術(Oxford Nanopore Technologies社のMinIONデバイス)を用いて、バーコード付きの出力鎖を高並列に直接検出することにより、DSD回路の活性をリアルタイムで動態測定できる多重化シーケンスフリー読み出し方法を提案する。ディープラーニングを用いて、生のナノポア信号から直接、人工レポータープローブを1分子レベルで高精度に検出・分類できることを示す。次に、臨床的に関連するマイクロRNA配列の多重検出において、この方法の有用性を実証する。これらの結果は、DSDの出力帯域幅を蛍光分光法よりも1桁増加させ、DNA回路の読み出しや携帯型ナノポア装置を用いたプログラム可能な多重分子診断における新しいパラダイムの基礎を築くものである。

 

2022

1/3

 

1/4

 

1/12

 

 

1/13

 

1/20

 

1/22

 

1/25

”存在量はべき乗則に従うことが多く[7]、このことは、メタゲノムサンプルの配列決定によって、ある種の生物種を深くカバーし、他の種のカバー率が低いか部分的になるデータが得られることを意味することがある。希少な種のシークエンスの出力を最大化する効果的なエンリッチメント戦略は、この弱点と生物多様性の盲点に対処するものである。オックスフォード・ナノポア・テクノロジーズ(ONT)のAdaptive Sampling Concept(選択的シーケンスと呼ばれることもある)は、ソフトウェア制御によるエンリッチメントの一形態と言える。分子の最初の数百塩基を調べ、その分子が「ターゲットの分子」であるかどうかを判断し、ターゲットから外れた分子は、孔に流れる電流を逆流させて排出し、孔を解放して新しい分子を捕らえる。

我々は、DNA分子の長さがAdaptive Samplingの効率と効果に及ぼす影響を調査し、MAGと診断の両方のアプリケーションにおける有用性を判断したいと考えた。ここでは、既知の相対的存在量とリード長分布が与えられたメタゲノム・コミュニティで可能なエンリッチメントレベルを予測する数学的モデルを提示する。”

 

1/28

"当研究室では、ゲノム配列決定パイプラインの自動化を図るため、ロボット生物学研究所の両腕型人間型ロボット「Maholo LabDroid」に、細胞溶解液からの有機溶媒によるゲノムDNA抽出を行うようプログラミングを行った。フェノール・クロロホルム抽出の自動化については、我々の知る限り、今回が初めての報告である。"

(DOI: doi: https://doi.org/10.1101/2022.01.26.477939のフル動画リンク

(* リンクされているプレプリントの著者ではない)

 

2/16

 

 

 

3/4

”これは、基本的にベースコールモデル(fast, hac, sup)と chunks_per_runner の値のリストを取り、それらを繰り返し実行する非常に初期のドラフトコードです。Guppy実行の詳細(ベースコール率、サンプル/秒を含む)を記録し、またGPU使用統計も記録してます。時間が許す限り、より多くの機能を追加したいのですが、これは現在の形で一部の人に役立つかもしれないと思いました。”

 

3/15

 

"第3世代のロングリードシーケンスが植物ゲノム科学に変革をもたらす。Oxford Nanopore TechnologiesとPacific Biosciencesは競合するロングリードシーケンス技術を提供し、植物科学者が大規模で複雑な植物ゲノムでさえ調査できるようにする。シーケンシングプロジェクトは1つの研究グループで実施することができ、小規模な植物ゲノムのシーケンシングは数日で完了できる。また、陸上植物の起源と進化に関連する基本的な疑問を解決するために、複数の種のゲノムを大規模に調査することが多くなった。配列決定装置や使いやすいソフトウェアが入手しやすくなったことで、より多くの研究者がゲノム解析に携わることができるようになった。現在の課題は、2倍体や多倍体のゲノム配列を正確に解析することと、単一の参照ゲノム配列からパンゲノムグラフに切り替えることで種内多様性をよりよく反映させることである。”

論文中ではDNA抽出方法についても引用して議論しています。植物の高分子DNA抽出は難易度が高いので、携わっている方は読まれた方が良いかと思います。

 

4/13

 

4/26

"Long-read nanopore sequencing provides significant clinical utility when assessing the parental origin of de novo variants."

 

4/30

 

5/11

 

5/14

"75種の多様なイネ属を選択し(Supplemental Table S1)、Oxford Nanopore Technologiesロングリード(平均デプス68.71×)(Supplemental Table S2)およびIlluminaショートリード(平均デプス69.04×)(Supplemental Table S3)プラットフォームを用いてシークエンシングし、de novoアセンブルした。このコンティグを修正して染色体レベルのスキャフォールドにアセンブルしたところ、平均N50は33.08Mb、平均BUSCO(Benchmarking Universal Single-Copy Orthologs)スコアは98.25%に達した。また、他のバッチから得られた13ゲノム(Supplemental Table S4)、および公開データベースから得られた25ゲノム(Supplemental Table S5)も本研究に含まれる”

 

5/21

 

 

 

 

6/24

”市販のプラスミドシーケンスオプションの代替として、オックスフォード・ナノポア・テクノロジーズのMinIONデバイスを使用した費用対効果の高い正確なプラスミドシーケンスおよびコンセンサス生成手順について説明する。"


 

7/6 (2021年のプレプリントの査読された論文)

”Oxford Nanopore R10.4を使用することで、ショートリードやリファレンスベースの研磨を行わずに、単離株やメタゲノムからほぼ完成された微生物ゲノムを生成できることを示す。(中略)7種の細菌と1種の真菌からなるZymo mock のシーケンスを通して、Oxford Nanopore R9.4.1 および R10.4 データからほぼ完成した微生物ゲノムを得ることができるかどうかを評価した。R9.4.1のデータとは対照的に、R10.4ではIllumina polishingの追加によるアセンブリ品質の大きな向上は見られなかった(図1c、補足図1)(補足;ONTだけで十分に高品質ということ)。R9.4.1からR10.4へのアセンブリ精度の向上は、ホモポリマーのコール能力の向上によるところが大きい(図1b、補足図2、図3)。(中略)R10.4データでは長さ<11 bpまでのホモポリマーの大部分が正しく分解されていた(補足図4)。”


 

珪藻Phaeodactylum tricornutumのT2TアセンブリGCAリンク)。Oxford Nanopore MinIONフローセルR9.4.1とイルミナが使用されている。テロメア配列を組み立てるための戦略などとても勉強になります。

ENAにFAST5のtar.gz (およそ102GB)も登録されていますね(リンク)。

 

 

7/13

 

7/18

"ナノポアリードは、ショートリードアセンブラによってどの程度アセンブルできるのでしょうか? 1/8"

 

8/16

 

8/22

 

 

9/5

 

9/6

 

9/10

 

10/19

 

10/20

 

11/18

 

 

11/28

 

12/8

 

12/10

 

12/15

 

12/20

ショウジョウバエ科のハエのONT onlyロングリードシークエンシング。一連のツイートで、R9.4.1+IlluminaとR10.4.1+Q20を比較している。シークエンシングデータも公開されている。

 

12/23

 

2023

1/12

 

1/24

 

2/11

 

2/20

"ナノポアシーケンスでは、ロングリードによりMAGのアセンブリ品質が大幅に向上するため、微生物のメタゲノム解析に用いられることが多くなっているが、推奨されるDNA量は通常、環境サンプルの回収可能なDNA量よりも多くなっている。ここでは、Nanoporeライブラリー調製のために推奨量より少ないDNA量について、シーケンス品質、群集組成、アセンブリ品質、MAGsの回収率を測定し、評価した。”

 

2/22

 

3/2

 

3/3

ONT MinIONと高い互換性のあるイルミナのショートリードのライブラリーの作成

(Accepted October 21, 2022)

 

3/21

 

3/22

 

 

 

 

3/31

"オックスフォード・ナノポア・テクノロジー社のプラットフォームを用いたダイレクトRNAシーケンス(dRNA-seq)は、エピトランスクリプトミクスの分野を変革する有望な展望を持ち、近年ますます普及してきている。dRNA-seqから得られるリードは、RNAの塩基修飾やポリAテールの長さに関する解読可能な情報を含みながら、遺伝子転写物の全長までカバーする。dRNA-seqの可能性を探る多くの研究が発表されているが、DNAシーケンスと比較して、シーケンスの精度やエラーパターンはまだ十分に研究されておらず、特徴もあまりわかっていない。多様な生物のネイティブRNAサンプルや合成in vitro転写RNAを含む公開データセットについて、dRNA-seqのシーケンス精度を評価し、系統的エラーパターンを特徴付けた。"

 

4/7

https://github.com/nanoporegenomics/card_nanopore_wf

("ONTデータのバリアントコールとde novoアセンブリのためのpieplines。シングルフローセルONTシーケンスプロトコルに最適化されている。NIHのアルツハイマー病と関連認知症センターで、数千のヒト脳ゲノムのシーケンスと特性解析に適用されている。")

 

"Q:バルクとシングルセルのRNAシーケンスの精度は?A:期待したほど正確ではありません。実際、シングルセルレベルでは、PCRバイアスが大きく影響しています。(中略)。ナノポアキット14のケミストリーは、イルミナやPacBioよりも正確です。ホモトリマー補正を使えば、ほとんどのCMIエラーを補正できます。(RNA-seqの文脈で)なぜONTの方が精度が高いのか、というのが私たちの質問でした。私たちは、これはPCRの増幅エラーが原因ではないか、と考えました。PacBioとIlluminaはシーケンスの一部としてPCRを使用しますが、nanoporeはそうではありません。PCRは確かに影響を及ぼし、私たちが予想した以上の効果がありました。" (ONTの文脈を中心に抜粋)

 

4/21

 

5/1

 

5/5

 

LONDON CALLING 2023関連(自分が理解できたものだけ)

RNA seq関係

 

 

 

その他

 

 

 

 

 

 

 

 

 

 

5/26

"テロメアは、老化や染色体の完全性において中心的な役割を担っている。我々はONTロングリードシーケンスを用いて、植物に寄生する最も壊滅的な線虫であるMeloidogyne incognita, M. javanica, M. arenariaのゲノムを、他に類を見ないほど連続した状態で構築した。線虫に進化的に保存されているテロメリックリピート(TTAGGC)nは、これらのゲノムには見出されなかった。さらに、テロメラーゼ酵素や線虫のテロメア関連タンパク質のオルソログの証拠も見つからなかった。その代わりに、コンティグの片方の端に存在する種特異的な複合リピートが確認された。"

 

6/21

 

 

7/11

 

7/13

 

9/1

 

12/7

 

Mk1C support

 

"過去20年間で、標本の同定と種の発見の両方にDNAバーコーディングが有効であることが示されてきた。世代にわたる努力を反映し、DNAバーコード参照ライブラリーは現在120万種をカバーしており、その80%は動物界からのものである。~

バーコーディングはDNA抽出、PCR、シーケンシングの順で行われ、2017年までは最後のステップがコストの大半を占めていた。高度にmultiplexingされたサンプルからバーコードをリカバーすることで、Pacific BioSciences社のSequelプラットフォームはコストを90%削減し、検体あたり7.50ドルから0.25ドルに減少した。Sequel IIでは、5倍大きなプールを解析することで、シークエンシングを検体あたり0.05ドルに引き下げた。Sequelプラットフォームは高忠実度のバーコードを安価に生成するが、2つの限界がある。第一に、資本コスト(50万ドル)と年間サービスコスト(5万ドル)が高いため、中核施設への導入が制限される。第二に、同社のフローセルは十分に高価(2Kドル)であり、プロトコル開発の妨げとなっている。オックスフォード・ナノポア・テクノロジーズ社のシークエンサーは、高い資本コストとサービスコストから逃れることができるが、配列忠実度が低いため、これまでは分析コストはSequelを上回っていた。しかし、最新のフローセル(R10.4.1)の性能向上により、この差がなくなるかもしれない。この研究では、通常のMinIONフローセルが10万検体由来のアンプリコンプールを特性解析できるのに対し、Flongleフローセルは数千検体由来のアンプリコンプールを処理できることを示した。検体あたり0.01ドルというDNAシーケンシングは、今やバーコードワークフローの中で最も安価なステップである。DNA抽出のための簡素化されたプロトコルと超低容量PCRを組み合わせることにより、標本からDNAバーコードまで0.10ドルで移行することが可能になる。"

 

12/20

 

 

2024/01/21

サイエンスZERO  未来が加速する!DNA解読“ナノポアシークエンサー

初回放送日: 2024年1月28日

 

* R10フローセルに移行する場合のややネガティブな話題(たくさんの菌のゲノムを決定されている)。ベースコーリング精度は高いがリード数が少なく、そして短くなってしまい、かつハイブリッドアセンブリの品質に差はないという話。

 

"16S rRNA遺伝子と23S rRNA遺伝子を統合するプロセスの結果、曖昧さが減少し、より優れた亜種の分離が可能になり、より優れた種および亜種の相対的な細胞存在量の推定が可能になった。"

(注;この論文の著者ではない)

 

 

2/29

"DNAシーケンシングによるそのプラスミド解析は、サンプル中のプラスミドDNAの存在量の少なさに悩まされている。ナノポアアダプティブサンプリングは、シーケンスプロセス中に興味のないDNA分子を拒絶することで、これらの問題を克服することができる。本研究では、2つの異なるアダプティブサンプリングツールを用いて、既知の細菌分離株における低存在プラスミドの濃縮に対するアダプティブサンプサンプリングの適用を評価した。その結果、有効期限切れのフローセルでも有意な濃縮が達成できることを示した。アダプティブサンプリングを適用することにより、de novoプラスミドアセンブリの質を向上させ、シーケンス時間を短縮することもできた。しかし、本実験では、標的配列と非標的配列が類似領域にまたがる場合のアダプティブサンプリングの問題点も浮き彫りになった。"

Ulrich J, Epping L, Pilz T, Walther B, Stingl K, Semmler T, Renard BY.0.Nanopore adaptive sampling effectively enriches bacterial plasmids. mSystems0:e00945-23.https://doi.org/10.1128/msystems.00945-23

https://doi.org/10.1128/msystems.00945-23

 

3/7

 

4/6

"転写産物は潜在的な治療標的であるが、細菌の転写産物は生物学的に未解明のままである。我々は、新たに作成したONTダイレクトRNAシーケンスデータを用いて、Escherichia coli K12株およびE2348/69株(Bacteria:γ-Proteobacteria)の転写産物を予測するアルゴリズムを開発・適用し、同時にListeria monocytogenes Scott A株およびRO15株(Bacteria: また、Listeria monocytogenesのScott A株とRO15株(細菌:ファーミキューテス)、緑膿菌SG17M株とNN2株(細菌:γ-プロテオバクテリア)、Haloferax volcanii(古細菌:Halobacteria)の転写産物を、公開されているデータを用いて予測した。500万件以上の大腸菌K12 ONTダイレクトRNAシーケンスリードから、2,484のmRNAが予測され、予測された大腸菌タンパク質の半分以上が含まれている。予測された転写産物の数は、予測に使用された配列データの量に基づいて株によって異なるが、調査されたすべての株において、予測されたmRNAの平均サイズは1.6-1.7 kbpであり、予測された細菌の5'-および3'-UTRのサイズの中央値は30-90 bpであった。細菌および古細菌の転写産物のアノテーションが不足していることから、ほとんどの予測は新規転写産物であるが、大腸菌E2348/69 LEE病原性アイランドにおいて転写後に生成された転写産物や病原性に関連する低分子RNAなど、これまでに特徴づけられたmRNAやncRNAも多数予測した。すべての株について、100-200 bpの範囲の低分子転写産物、および10 kbpを超える転写産物を予測した。"

(この論文の著者ではない)