macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

コンティグを遺伝子含有量に基づいてプラスミドか非プラスミドかに分類する plasmidVerify

2023/10/01 追記

 

 プラスミドは細菌の生存と適応に重要であるが、ゲノムはもちろん、メタゲノムサンプルからのプラスミド検出とアセンブリは依然として困難である。最近開発されたplasmidSPAdesアセンブラは、単離ゲノムの場合にはこれらの課題のいくつかに対処したが、まだ発見されていないプラスミドの未開拓のソースであるメタゲノムアセンブリのプラスミドを検出するには不十分だった。本研究では、メタゲノムデータセットにおけるプラスミドアセンブリのためのメタプラスミドSPAdesツールを発表し、最先端のアプローチと比較してプラスミド検出の誤検出率を低減した。多様なデータセットでプラスミドをアセンブルし、すでに完了しているゲノムおよびメタゲノム研究では数千個のプラスミドが残っていることを示した。この分析は、プラスミドの極端な変動性を明らかにし、現在知られているプラスミドと有意な類似性を持たない多くの新規プラスミド(抗生物質耐性遺伝子を持つ多くのプラスミドを含む)を発見することにつながった。

 

実行方法

依存

Github

git clone  https://github.com/ablab/plasmidVerify.git
cd plasmidVerify/

> ./plasmidverify.py -h

$ ./plasmidverify.py -h

usage: plasmidverify.py [-h] -f F -o O [--db DB] [--hmm HMM] [-t T]

 

HMM-based plasmid verification script

 

optional arguments:

  -h, --help  show this help message and exit

  -f F        Input fasta file

  -o O        Output directory

  --db DB     Run BLAST on input contigs with provided database

  --hmm HMM   Path to Pfam-A HMM database

  -t T        Number of threads

 

 

実行方法

./plasmidverify.py -f input.fasta -o outdir --hmm <Path>/<to>/Pfam-A HMM

 

出力ファイルはカンマ区切りの表形式ファイル(result_table.csv)となる。

表にはコンティグ名、予測結果、対数尤度比、予測されたHMMのリストが記載されている。コンティグ名を使ってアセンブリ結果からプラスミドと考えられる配列を取り出すなどする。

引用

Plasmid detection and assembly in genomic and metagenomic data sets

Antipov, D., Raiko, M., Lapidus, A., & Pevzner, P. A

Genome Res. 2019 Jun;29(6):961-968

 

関連