macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ドラフトゲノムからplasmidを検出する RFPlasmid

 

 細菌の抗生物質耐性(AMR)遺伝子は、多くの場合プラスミド上に保持されており、これらのプラスミドは細菌間でAMR遺伝子を移行させることができる。分子疫学やリスク評価のためには、遺伝子が転写性の高いプラスミド上にあるのか、より安定した染色体上にあるのかを知ることが重要である。しかし、ドラフトゲノム配列は断片化されており、プラスミドと染色体のコンティグを区別することは困難である。ゲノムのドラフト配列からプラスミドの配列を予測する現在の方法では、k-mer組成、DNA分子の環状性、コピー数、プラスミド複製遺伝子との配列同一性などの単一の特徴に依存しているが、いずれも欠点があり、特に抵抗性遺伝子を搭載していることが多い大型の単一コピープラスミドに直面した場合には、その欠点がある。新たに開発した予測ツールRFPlasmidは、k-mer組成やプラスミドおよび染色体マーカータンパク質のデータベースを含む複数の機能を組み合わせて、コンティグの発生源がプラスミドか染色体かを予測する。RFPlasmidは、カンピロバクター大腸菌サルモネラ菌など17種類の細菌種のモデルをサポートしており、メタゲノムアセンブリやサポートされていない生物のための種にとらわれないモデルを持っている。RFPlasmid は、スタンドアロン ツールとしても、ウェブ インターフェイスを介しても利用できる。

 

HPより

細菌の抗菌薬耐性(AMR)遺伝子は、多くの場合プラスミド上に担持されている。このプラスミドは細菌間でAMR遺伝子を拡散させることができるため、その遺伝子が転写性の高いプラスミド上にあるのか、より安定した染色体上にあるのかを知ることが重要である。全ゲノム配列(WGS)解析により、耐性遺伝子が含まれているかどうかの判定は容易であるが、遺伝子が染色体上にあるのか、プラスミド上にあるのかの判定は、一般的にゲノム配列のアセンブルでは50~300個のDNA断片(コンティグ)が存在するため、容易ではない。本著者らは、新たに開発した予測ツールを用いて、これらのコンティグの組成を解析し、遺伝子がプラスミド上にあるのか、染色体上にあるのかを予測する。

 本ツールは、CheckMとDIAMOND Blastを用いて染色体マーカー遺伝子、プラスミド複製遺伝子、プラスミドタイピング遺伝子の数を同定し、コンティグあたりのペンタマー頻度とコンティグサイズを決定する。予測モデルは、19の異なる細菌種のプラスミドと染色体の広範なセットに対してRandom Forestを用いて訓練され、異なる細菌の既知の染色体コンティグとプラスミドコンティグの別々のテストセットで検証された。

 

 

インストール

Github

conda create -n rfplasmid python=3.7 -y
conda activate rfplasmid
sudo pip3 install rfplasmid

#diamondのパスが見えないと怒られたので、シンボリックリンクを追加した。
sudo ln -s <your>/<diamond>/<path>/diamond /usr/local/bin/

 それからデータベースを準備する。

sudo rfplasmid

 

webサービス

http://klif.uu.nl/rfplasmid/

f:id:kazumaxneo:20200818005823p:plain

 コンティグを1つのファスタ形式のファイルとしてアップロードする。ファイルの末尾には拡張子.fastaをつける。

 

種に特化したモデルのため、種を選択する。

f:id:kazumaxneo:20200930001208p:plain


 

アップロード後、しばらくするとoutputに予測結果が出力される。

f:id:kazumaxneo:20200930001304p:plain出力

f:id:kazumaxneo:20200930001356p:plain

 

引用

RFPlasmid: Predicting plasmid sequences from short read assembly data using machine learning

Linda van der Graaf van Bloois, Jaap A. Wagenaar, Aldert L. Zomer

bioRxiv, Posted August 02, 2020