E.coliとKlebsiellaに対応したWGSからのプラスミド検出ツール PlaScope

　最近、いくつかの研究がin silicoプラスミド予測ツールの有効性を評価している[ref.1、2]。実際、現在、多くのバイオインフォマティクス法が、リードカバレッジ解析（例：PlasmidSPAdes）、k-merベースの分類（例：cBAR、PlasFlow）、レプリコン検出（例：PlasmidFinder）などのさまざまなアプローチが、このようなモバイル因子の検出に使用できる。これらの中には完全に自動化されているものもあり[ref.3–7]、そうでないものもある[ref.8]。そのうちのいくつかは高い感度を達成している：例えば、PlasmidSPAdes（紹介）とcBar（紹介）は42ゲノムのデータセットでそれぞれ0.82と0.76のプラスミド回収を可能にする[ref.1]。一方で、100％に達するPlasmidFinder（紹介）のように、いくつかのツールは非常に高い精度を示す[ref.1]。残念なことに、感度と特異性の間の良いトレードオフを見つけることに成功したものはないので、正しい予測を得るためにユーザーは異なる方法を組み合わせる必要がある。

　付随して、公的データベースにおいてますます多くの配列が利用可能になりつつあり、これらには、多数の一連のコンティグから、完全に環状化されたゲノムおよびプラスミドまで様々なレベルの完全性がある。何人かの研究者はこれらのデータベースをキュレーションするための努力をして、高品質のデータセットを提案した。例えば、Carattoli et alとOrlek et alらは、腸内細菌科のための興味深くそして徹底的なプラスミドデータセットを発表した[ref.4、9]。

　このことを念頭に置いて、本著者らはここでPlaScopeと呼ばれる、ゲノムアセンブリのplasmidomeを評価するためのワークフローを提案する。利用可能なゲノムデータを利用して、プラスミドと染色体のカスタムデータベースを作成した。これらは、もともとメタゲノミクス分類器として開発されたツールCentrifugeソフトウェアの入力として使用され、これはデータベースに対する完全一致に基づいて配列を割り当てることができる[ref.10]。本著者らはそれを他のプラスミド分類子、cBarおよびPlasFlowと比較し、そして特定のknowledgeベースのアプローチで特異性を危うくすることなく様々な大腸菌株のほぼ全てのプラスミドを回収できることを示した。最後に、このアプローチの有用性を2つのデータセットで示した。（一部略）

　PlaScopeのワークフローを図1に示す。まず、ユーザーはペアエンド fastqファイルを入力する必要がある。アセンブリはSPAdes 3.10.1 [ref.11]を使用し、 'careful'オプションとauto k-merサイズのオプションを使用して実行し、コンティグを取得する。その後、Centrifuge [ref.10]のカスタムデータベースによりこれらのコンティグの場所を予測し、それらを3つのクラスに分類した、すなわちプラスミド、染色体、そして未分類。未分類には、（i）両カテゴリーで共有される（すなわち、データベースからのプラスミドおよび染色体配列と一致する）区別できないコンティグ、（ii）データベースにヒットしないコンティグ、および（iii）長さ、ヒット長または定義されたしきい値を下回るカバレッジ、が含まれる。最後に、これら3つのクラスに基づいて結果がソートされ、awkを使用して抽出される。完全なワークフローはgithubのPlaScope.sh（https://github.com/GuilhemRoyer/PlaScope）bash スクリプトを通して利用可能である。または、すべての依存関係をBioCondaを通してインストールし利用できる（conda install plascope）。

　これらのレプリコンは細菌の特定の環境適応において極めて重要であるため、プラスミドの探索は非常に興味深いものとなり得る。それらは種内および種間の多くの遺伝子の交換に関与しており、特に抗生物質耐性および病原性に大きな影響を与えている。しかしながら、プラスミドの特徴付けは長年にわたり面倒な仕事であり、例えば複雑な接合またはエレクトロポレーション操作を必要としていた。全ゲノムシーケンシング技術の出現により、適切なツールが利用可能であるならば、これらの配列へのアクセスは今や潜在的により容易である。多種多様なバクテリアのプラスミドソームを探索するための多くのソフトウェアツールが開発されているが、特異性と感度の点で最良の妥協点を提供することはめったにない。ここでは、本著者らは単一の種または属に焦点を当て、そして、この問題を克服するために利用可能な多くのデータを使用する。本ツールPlaScopeは他の2つの分類器、PlasFlowとcBarと比較して高性能を達成し、そしてそのようなアプローチが毒性または耐性遺伝子の位置を決定するできることを実証する。 PlaScopeは特定のよく知られたバクテリアの分析に非常に役立つかもしれないと私達（本著者ら）は考えている。

The PlaScope workflow. 論文より転載。

インストール

mac10.14のanaconda3環境でテストした（python3.6.8）。

依存

SPAdes 3.10.1 or later if you want to run the assembly (= mode 1) (header of contigs must be the same as in version 3.10.1, e.g >NODE_1_length_506801_cov_117.065)
Centrifuge 1.0.3

本体　Github

#anaconda環境ならcondaで導入可能
conda install -c bioconda -y plascope

> plaScope.sh

$ plaScope.sh

usage: plaScope.sh [OPTIONS] [ARGUMENTS]

General options:

-h, --help display this message and exit

-v, --version display version number and exit

-n, --no-banner don't print beautiful banners

-t number of threads[OPTIONAL] [default : 8]

-o output directory [OPTIONAL] [default : current directory]

--sample Sample name [MANDATORY]

--db_dir path to centrifuge database [MANDATORY]

--db_name centrifuge database name [MANDATORY]

Mode 1: SPAdes assembly + contig classification

-1 forward paired-end reads [MANDATORY]

-2 reverse paired-end reads [MANDATORY]

Mode 2: contig classification of a fasta file (only if you already have your SPAdes assembly!)

--fasta SPAdes assembly fasta file [MANDATORY]

Example mode 1:

plaScope.sh -1 my_reads_1.fastq.gz -2 my_reads_2.fastq.gz -o output_directory --db_dir path/to/DB --db_name chromosome_plasmid_db --sample name_of_my_sample

Example mode 2:

plaScope.sh --fasta my_fastafile.fasta -o output_directory --db_dir path/to/DB --db_name chromosome_plasmid_db --sample name_of_my_sample

Github:

https://github.com/GuilhemRoyer/PlaScope

データベースの準備

Pre-buildされたデータベースをダウンロードする。

https://zenodo.org/record/1311641#.XLswji3APmE

#E.coli
mkdir database && cd database/
wget https://zenodo.org/record/1311641/files/chromosome_plasmid_db.tar.gz?download=1
tar -zxvf chromosome_plasmid_db.tar.gz?download=1

#Klebsiella
mkdir database && cd database/
wget https://zenodo.org/record/1311647/files/Klebsiella_PlaScope.tar.gz?download=1
tar -zxvf Klebsiella_PlaScope.tar.gz?download=1

KlebsiellaならKlebsiella_PlaScope.1.cf、Klebsiella_PlaScope.2.cf、Klebsiella_PlaScope.3.cfができる。ラン時にはKlebsiella_PlaScopeを指定する。

カスタムデータベースの作成方法はGithubにまとめられています。

実行方法

fastqとデータベースを指定する。

plaScope.sh -1 my_reads_1.fastq.gz -2 my_reads_2.fastq.gz \
 -o output_dir --db_dir database_dir --db_name Klebsiella_PlaScope \
 --sample  sample1

引用

PlaScope: a targeted approach to assess the plasmidome from genome assemblies at the species level
G. Royer, J. W. Decousser, C. Branger, M. Dubois, C. Médigue, E. Denamur, D. Vallenet

Microb Genom. 2018 Sep; 4(9)