macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ターゲットに特異的なコア配列のプライマーを設計する RUCS

 

 ポリメラーゼ連鎖反応(PCR)は、分子生物学における最も重要な科学的進歩の1つである。これは、DNAの特定の配列をコピーするための安価な技術である。 PCRは、医療、法医学、および研究のアプリケーションに不可欠なツールになっている。 PCRは、感染性病原体の検出および同定、ならびに病原性および耐性遺伝子のタイピングおよび特徴付けに使用される。

 PCR反応において予想されるアンプリコンのみを産生するプライマーを設計して見つけることは、面倒で、しばしば反復的なプロセスであり得る。プライマーが結合しようとするゲノムは巨大であり、完全一致でなくてもプライマーはDNAに結合する可能性がある。この非特異的プライミングは、PCRが検出目的のために使用される場合、陽性の結果につながる可能性がある。

 優れたプライマー候補の同定と偽陽性の減少を助けることのできるいくつかのバイオインフォマティクスツールがすでに存在している。これらのツールの中で、最も顕著なものはssGeneFinder、Primer3およびPrimerBLASTである(Ho et al、2012; Untergasser et al、2012; Ye et al、2012)。 ssGeneFinderは、BLASTを利用して特定のデータセットに固有のDNA配列を検索する(Camacho et al、2009)。 Primer3は、所定のDNA配列に対して適切なPCRプライマーを予測するためのツールを提供する。 PrimerBLASTは、特定のデータベースと一致するプライマーの除外も可能にすることにより、Primer3の有用性を拡大する(紹介)。これらのツールを組み合わせPCRプライマー候補を見つけることができるが、プロセスは最適ではなく、適切なプライマー候補を得るためにいくつかの手作業を必要とする。さらに、ssGeneFinderツールは非常に特異的であり、したがって、一塩基多型(SNP)または小さな挿入/欠失のような小さなユニークな配列を欠いてしまう。

 著者らが探した限り、PCR反応が非特異的プライミングの問題を引き起こすかどうかを予測し、ドラフトを直接作成する既存のツールは見つからなかった。これは、適切なペアが見いだされる前に、実験室で異なるプライマー対を用いた反復プロセスを用いることがしばしば必要であることを意味する。最も近いツールはFastPCRだったが、このツールをドラフトゲノムで機能させることはできなかった(Kalendar et al、2017)。この論文では、PCRプライマー設計の負担を軽減するための2つの新規な方法を紹介する。第1の方法は、陽性及び陰性ゲノムの所与のデータセットについて固有のコア配列を同定するための迅速かつ高感度な方法である。第2の方法は、Primer3のプライマー対予測と、PCRプライマープライマーセットについてのアンプリコンを、正および負のセットの基準に対して新規なin silico PCR産物の検証方法と組み合わせる。固有のコア配列を同定するこの方法をssGeneFinderと比較し、6.5-20倍高感度であることを見出した。さらに、mCR-1コリスチン耐性遺伝子を含むゲノムを標的とするプライマー対を設計するために、RUCSを使用した。予測された対のうちの3つを、PCRおよびゲル電気泳動を用いた実験的検証のために選択した。全ての3つの対は、mcr-1を含有する試料の標的長さを有するアンプリコンを首尾よく増幅し、そして陰性試料について増幅産物は産生されなかった。この論文で提示された新しい方法は、標的配列を同定するのに必要な時間を短縮し、迅速に仮想PCRを検証して、あいまいに結合するプライマーで無駄になる時間を排除することができる。

 

 webサーバ

https://cge.cbs.dtu.dk/services/RUCS/

Instructions

https://cge.cbs.dtu.dk/services/RUCS/instructions.php

 

ラン

instructionにしたがって解析してみる。公式ページに用意されているデータをダウンロードする。

 

 公式データは実践的な内容になっている。はじめにシーケンスデータをアセンブリするところから始める。 アセンブリしたターゲットゲノム(contig)に対してプライマーを設計していく。

アセンブリは、公式マニュアルではspadesの解析サーバーを利用している(spadesサーバー)。ここではローカル環境でアセンブルしてcontig配列を得る。

spades.py -k auto -1 ERR1399396_1.fastq.gz -2 ERR1399396_2.fastq.gz -o assembly

終わったら、scaffolds.fastaをERR1399396.fastaにリネームする。

positivesのフォルダとnegativesのフォルダを作成し、以下のようにファイルを配置する。

f:id:kazumaxneo:20180412175957j:plain

positivesのフォルダには、ターゲットに設定した全てのゲノム配列を入れる。negativesのフォルダにはネガコンのゲノムを入れる。このファイル配置にしたがって、positiveで特異的増幅が期待できるプライマーペアが探索される。

 

webサーバーに移動する。

https://cge.cbs.dtu.dk/services/RUCS-1.0/

 

テストでは、増幅サイズを100-300に変更する。

f:id:kazumaxneo:20180412180344j:plain

リファレンスはpositiveのゲノム(ERR1399396.fasta)に指定する。 

f:id:kazumaxneo:20180412180405j:plain 

 最後にファイルを指定する。

f:id:kazumaxneo:20180414091546j:plain

ボタンはなくて、uploadが終了すると自動で解析画面にジャンプする。サーバーが混雑している場合、メールアドレスを記載するよう促される。テストした時は、結果のメールが来るまで2日かかった。

また、不具合かどうか不明だが、Safariではうまくページジャンプできなかった。chromeに切り替えると自動ページジャンプした。

 

結果

みつかったペアが表示される。

f:id:kazumaxneo:20180414092703j:plain

3−5列は以下のような定義に基づいている。

、Sensitivity - fraction of positive genomes producing the amplicon

、Specificity - fraction of negative genomes NOT producing the amplicon

、Noise - number of produced amplicons significantly different to the target size*

 

+をクリックすると配列が表示される。

f:id:kazumaxneo:20180414092657j:plain

このほか、コア配列、検討されたプライマーなどのファイルがダウンロードできる。

 

引用

RUCS: rapid identification of PCR primers for unique core sequences.

Thomsen MCF, Hasman H, Westh H, Kaya H, Lund O.

Bioinformatics. 2017 Dec 15;33(24):3917-3921.