macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

NGSデータからプラスミドを検出するplasmidseeker

2019 2/26 誤字修正

 

 プラスミドは、自律的複製および接合が可能な環状または線状の二本鎖DNA分子である。プラスミドは生命の3界すべてに記述されている(Antipov et al、2016)。細菌プラスミドは、ヒトに有毒な多剤耐性細菌の急速な増加に寄与しているホストへの有益な特性を付与することで言及されている。従って、プラスミドの検出およびモニタリングにはかなりの努力が払われている。

 プラスミド検出にはいくつかの方法があり、いずれも独自のメリットと欠点がある。 PCRベースのレプリコンタイピングは、プラスミドの保存されたレプリコン部位(Smalla, Top & Jechalke, 2015)を標的とし、マルチプレックスPCRにより多くのレプリコンを標的とするように拡張できる(Carattoli et al、2014)。迅速かつ安価なマルチプレックスPCRであるが、すべての新規プラスミド群をカバーするために拡張するのは難しい(Carattoli et al、2014)。パルスフィールドゲル電気泳動は単離されたサンプルのプラスミドサイズおよび数を明らかにするが、このプロセスは数日間かかる可能性がある(Nyberg et al、2016)。さらに、これらの方法のどちらもプラスミドDNA配列に関する多くの情報をもたらさない。近年、ナノ流体チャネルに伸長されたプラスミドDNAの視覚化に基づいて、プラスミドのoptical DNA mappingが開発されている。蛍光色素の助けを借りて、プラスミドのDNA配列をおおよそ示す独特なバーコードを作成し、リファレンスデータベースのバーコードと比較することができる。非常に有望であるが、optical mappingは、より短い(<50kbp)プラスミドの検出にまだ適していない可能性がある(Nyberg et al、2016)。

 全ゲノムシーケンシング(WGS)は、短時間かつ比較的低コストで利用できるため、臨床および研究環境の両方で単離された細菌株を研究するために広く使用されている(Orlek et al、2017)。バクテリアのWGSプロジェクトの大部分は、イルミナのリードが短炒め、プラスミド検出を特殊なバイオインフォマティクスツールを必要とする複雑な作業にしている。 Carattoli et al (2014)は、blastnを用いて保存されたレプリコンサイトを検索し、それらをプラスミドレプリコンの選別されたデータベースと比較する、plasmidfinder ウェブツール(紹介)を開発した。 PlasmidSPAdes(Antipov et al、2016)(SPAdes紹介)は、コンティグのカバレージからプラスミド配列と細菌配列とを区別する。一方、PLACNET(Lanza et al、2014)は、カバレージおよびリファレンスプラスミドの両方からの情報を利用し、プラスミドネットワークを出力する。これらのすべてのツールは、rawリードをコンティグにアセンブリする必要がある。

 現在、National Center of Biotechnology Information(NCBI)RefSeqデータベースには、過去10年間の次世代シークエンシング技術の急速な発展により、8,000以上の完全なプラスミド配列が含まれている(論文執筆時点)。このように大きくて絶え間なく増殖するデータベースでは、サンプル中のプラスミドの完全なデノボアセンブリではなく、既知の(リファレンス)プラスミドの迅速なモニタリングを行うことが可能である。ここでは、組み立てられていない raw WGSリードから既知のプラスミド配列を検出するツールであるPlasmidSeekerについて説明する。PlasmidSeekerではリードのアライメントプロセスが必要ない。 PlasmidSeekerは、細菌単離株の染色体配列と比較して、プラスミドのコピー数、したがってカバレッジが異なる(通常はより高い)という仮定に基づいている(Providenti et al、2006)。これはplasmidSPAdesのアプローチに似ているが、plasmidSPAdesはアセンビリする必要があり、一方PlasmidSeekerは、長さK(k-mer)の短いDNAオリゴマーに基づいて存在量を計測し、プラスミドおよび染色体を区別する。 PlasmidSeekerは、さらなる配列情報なしで参照プラスミドのみを検出することができるだけであるが、プラスミド分析の第一段階として適しており、プラスミドをde novoでアセンブリする他のバイオインフォマティクスツールを補完するのに適している。

  

インストール

cent os6でテストした。

依存

本体 Github

https://github.com/bioinfo-ut/PlasmidSeeker 

git clone https://github.com/bioinfo-ut/PlasmidSeeker/
cd PlasmidSeeker/

./plasmidseeker.pl 

$ ./plasmidseeker.pl 

Usage: ./plasmidseeker.pl -d <PLASMID DB DIR> -i <SAMPLE.fastq> -b <CLOSEST BACTERIA TO ISOLATE> -o <OUTPUT FILE>

Options:

-i Input fastq file

-o Output file name (default plasmidseeker_result.txt)

-d Path to plasmid database directory

-b Closest bacteria to isolate genome fna

-t Number of threads used (default 32)

-f Minimum threshold F - at least this fraction of unique k-mers that has to be found for a plasmid (default 80)

 

-h Print this help

--verbose Print out more working process

--ponly Assumes that reads contain only plasmid sequences (use for extracted plasmids)

-v Print version of the program

 

ラン

テストランを実行する。自動でRefseqのplasmidのデータベース(k=20)とSRAのシーケンスデータがダウンロードされ、それから数分で解析結果が出力される(論文の表2のデータを使っている)。

bash plasmidseeker_ecoli_test.sh

 テストランが終わると、3つのシーケンスデータの分析結果、EC_~_results.txtがそれぞれ出力される。1つ開いてみる。

> cat EC_1_results.txt 

$ cat EC_1_results.txt 

# K-mers found Total kmers %Kmers found(F) Copy number P-value Plasmid ID Coverage List file

# MinP 80

# Estimated bacteria isolate median coverage 11

# Number of tests: 8 Significant p-value (initial 0.05) with correction: 0.006250

#

PLASMID CLUSTER 1

86850 108050 80.38% 2.82 0 Escherichia coli strain Ecol_743 plasmid pEC743_1, complete sequence 31 db_w20/plasmid_7491.fna_20.list

PLASMID CLUSTER 2

3795 4033 94.12% 67.64 0 Escherichia coli strain Ecol_867 plasmid pEC867_3, complete sequence 744 db_w20/plasmid_8212.fna_20.list

3720 4033 92.26% 67.36 0 Escherichia coli strain MRSN346647 plasmid pMRSN346647_4.1, complete sequence 741 db_w20/plasmid_7606.fna_20.list

3700 4031 91.81% 67.55 0 Escherichia coli plasmid pIGWZ12, complete sequence 743 db_w20/plasmid_455.fna_20.list

3692 4031 91.61% 67.73 0 Escherichia coli strain SF-468 plasmid pSF-468-4, complete sequence 745 db_w20/plasmid_7428.fna_20.list

3692 4031 91.61% 67.64 0 Escherichia coli strain Ecol_732 plasmid pEC732_4, complete sequence 744 db_w20/plasmid_7488.fna_20.list

 

HIGH P-VALUE PLASMIDS

1437 1745 82.35% 1.09 0.3394079 Xuhuaishuia manganoxidans strain DY6-4 plasmid sequence 12 db_w20/plasmid_6750.fna_20.list

検出されたプラスミド配列が表示される。

 

実際のランは、以下のようにする。plasmidデータベースとしてテストランで構築されたdb_w20/を使っている。ゲノムのカバレッジを見積もるため、もっとも近いゲノムのfastaも入力する必要がある。k-merに分解してユニークなk-merの頻度のmedianを求める)。

perl plasmidseeker.pl -i input.fq -b closest_ref.fa -d db_w20/ -o output
  • -i    Input fastq file
  • -o    Output file name (default plasmidseeker_result.txt)
  • -d    Path to plasmid database directory
  • -b    Closest bacteria to isolate genome fna

ランが終わると、テストと同じスタイルのテキストファイルが出力される。4Mbのバクテリアをゲノムリシーケンスした500MBほどのfastqは、2分程度で解析が終わった(デフォルトのt=32設定時)。5つのプラスミド全てを検出していた。

 

 

同じ研究チームが2017年に報告したStrainseekerも以前紹介しています。


引用

PlasmidSeeker: identification of known plasmids from bacterial whole genome sequencing reads

Roosaare M, Puustusmaa M, Möls M, Vaher M1, Remm M

PeerJ. 2018 Apr 2;6:e4588.