macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノムのアセンブリ配列からファージやプラスミドを予測する PPR-Meta

 

 Mobile genetic elements(MGE)として知られるファージとプラスミドは、原核生物や真核生物の間で遺伝情報を交換するとともに、水平遺伝子伝達(HGT)の主要な参加者である[ref.1]。そのようなエレメントは、宿主と相互作用することによって微生物群集を調節することができる。 MGEの重要な役割の1つは、耐性遺伝子をバクテリア間に分散させ、微生物群集間の環境適応を促進する能力である。ほとんどの場合、かなりの数のファージおよびプラスミドゲノムが微生物界に存在する。例えば、海洋ファージの存在量は海洋システム内の他の生物の存在量を凌駕し、海洋システムから分離された細菌の半分以上が1以上のプラスミドを含んでいることが報告されている[ref.34]。したがって、メタゲノム中のファージおよびプラスミドフラグメントの同定は、HGTおよびMGEと宿主との間の相互作用の包括的な分析における基本的な問題である。環境サンプルからファージまたはプラスミドを濃縮するための実験的アプローチが開発されているが[ref.5、6]、濃縮サンプルは宿主情報を失い、分析の網羅性を妨げる可能性がある。したがって、メタゲノムからファージおよびプラスミドを直接同定するための計算ツールがこの分野で開発されることが期待される。

 しかしながら、そのようなエレメントの効果的な同定は依然としてかなりの課題である。現在、ハイスループットシークエンシングデータから得られたプラスミドとファージの両方のフラグメントアセンブリ性能は、宿主由来のフラグメントの性能ほど良くはない[ref.7]。これは、ファージまたはプラスミド由来の配列が多数の短い断片として存在し、その結果同定が困難であることを示している。さらに、現在のデータベースでは、バクテリアゲノムと比較して、利用可能なファージやプラスミドのゲノム配列が少ない[ref.1]。特に、ウイルスの存在量は地球上の他の生物の存在量を超えると推定されているが[ref.8]、これまでのところNCBIデータベースのファージゲノムの数は原核生物ゲノムの数の30分の1未満である。ウイルスメタゲノム由来の配列の半分以上が、発表されたデータベースと有意な相同性を見いだすことができなかった[ref.5]。したがって、メタゲノムデータから多数の混合ショートリードを用いて新規ファージおよびプラスミドを同定するためのツールを開発することが不可欠である。  

 同定が困難であるにもかかわらず、培養依存性全ゲノムシーケンシング(WGS)データまたはメタゲノムデータからファージまたはプラスミドを検出するためのいくつかのツールが最近開発された。シーケンシングされた完全な細菌ゲノム上にintegrateされたファージ配列(プロファージと呼ばれる)の領域を検出するツールが設計されている。これらのツールには、Prophinder [ref.9]、Phage_Finder [ref.10]、PhiSpy [ref.11]、PHAST(およびその拡張版PHASTER)[ref.12、13]、VirSorter [ref.14]、およびProphET [ref.15]がある。そのようなアプローチは、完全に細菌のクロモソームを横切って移動し、ウイルスデータベースに対する類似性検索に基づいてファージであると思われる領域を抽出するためにスキャンウィンドウを主に使用した。これらのツールのスキャンウィンドウはしばしばいくつかの遺伝子をカバーすることを要求するので、そのようなツールはメタゲノムデータに適用するのが困難である。 VirSorterはメタゲノムコンティグをファージまたはバクテリアとして割り当てることもできるが、その識別感度はかなり低い。さらに、溶菌性ファージおよびいくつかの溶原性ファージは、それらのゲノムをそれらの宿主クロモソームにintegrateしない[ref.17]。したがって、これらのツールは特定のファージしか識別できない可能性がある。ツールMARVEL [ref.18]はメタゲノムビンをファージまたはバクテリアとして割り当てることができ、以前のツールよりも優れた性能を発揮する。他方、ビンに入らないかもしれない少量のファージから配列を同定するためには、各断片を直接判断することができるツールも必要とされる。対照的に、VirFinder [19]は各配列を直接判断することができ、それはk-mer頻度に基づいてファージ配列を検出するための分類器としてロジスティック回帰を使用し、そして比較的良好な性能を示す。プラスミドに関しては、プラスミド同定のための現在のツールのほとんどは、WGS、さらにはPlasmidFinder [ref.20]、PLACNET [ref.21]、PlasmidSeeker [ref.22]、およびmlplasmid [ref.23]などの特定の種向けに設計されている。しかしながら、WGSのためのプラスミド同定戦略はメタゲノムに適用可能ではないかもしれない。例えば、PlasmidSeekerは、プラスミドがそれらの宿主にコピーを持っているかもしれないので、プラスミドcontigがより高いカバレッジ範囲を持っていると考える。メタゲノムでは、しかしながら、コンティグ間のカバレッジ範囲の違いはコピー数よりもむしろ種の異なる存在量から生じる。ツールcBar [ref.24]は、主にメタゲノムにおけるプラスミド同定のために設計された最初のツールである。このツールは、k-merスペクトラムに基づく分類器として逐次最小最適化を適用する。 cBarと同様に、PlasFlow [ref.25]もプラスミドを同定するためのk-merベースのツールである。 cBarと比較して、PlasFlowはさらに異なるk-mer長の情報を組み合わせ、votingデバイスとして複数のニューラルネットワークを使用して配列がプラスミドに属するかどうかを判断し、cBarよりも優れたパフォーマンスを達成する。

 関連するツールが開発されたが、短い断片を検出するための最先端のツールは満足のいく性能を示さなかった。さらに、これらのツールはファージまたはプラスミドのいずれかしか識別できないため、明らかにMGEとHGTの包括的な分析のニーズを満たしていない。不十分なアセンブリ性能が多数の短い断片をもたらすことを考慮すると、より高性能のツールを開発することが実用的な目標である。本稿では、深層学習アルゴリズムに基づいてメタゲノム断片をファージ、プラスミド、またはクロモソームとして識別するための3クラス分類器であるPPR-Meta(Phage and Plasmid Recognizer for Metagenomes)を紹介する。短いフラグメントでより高い性能を達成するために、本著者らは、バイパス畳み込みニューラルネットワーク(BiPathCNN)と呼ばれる新しいニューラルネットワークアーキテクチャを設計した。著者らの知る限り、PPR-Metaはファージとプラスミドの断片を同時に効率的かつ確実に同定できる最初のツールである。

 自信のあるアノテーションを有する適切な実際のメタゲノムデータセットベンチマークとして利用可能ではないため、シーケンシングされた完全ゲノムから生成された人工コンティグを有する模擬データセットを使用した。 NCBIゲノムデータベースから完全長原核生物クロモソーム(合計10,090ゲノム)、原核生物プラスミド(合計8,801ゲノム)、そしてファージ(合計2,279ゲノム)をダウンロードした[ref.26]。 PPR-Metaが新規種を同定する能力を評価するために、2016年1月以前にリリースされたゲノムを使用してトレーニングセットを作成し、残りをテストセットの作成に使用した。一般に、原核生物クロモソームは、プロファージと呼ばれる組込みファージの領域を含み得る[ref.27]。しかし、ほとんどのゲノムはプロファージアノテーションを持っていない。ここでは、ProphET(v0.5.1)を使用してすべての原核生物クロモソームからプロファージを抽出し、ProphETによって予測された合計16,393のプロファージ(論文追加ファイル2に示す)をファージデータセットに組み込んだ。クロモソームデータセットからファージデータセットにプロファージを移動すると、ファージデータセットを拡張し、クロモソームデータセットからノイズを除去するのに役立つ。予測プロファージはProphETによって生成され、ベンチマークとして使用することができなかったので、予測プロファージをテストセットから削除した。プロファージ同定のためのPPR-Metaの性能を評価するために、本著者らはCasjens[ref.27]から54の原核生物クロモソームの267の手動アノテーション付きプロファージを集めた。テストデータがPPR-Metaにとって「新規」であることを確認するために、これらのプロファージとその宿主はトレーニングセットから削除された。

 MetaSim(v0.9.1)シミュレータ[ref.28]を使用して、全ゲノムから人工コンティグを抽出した。長さが100〜400 bpのグループA、長さ400〜800 bpのグループB、長さ800〜1,200 bpのグループC、およびグループDの4つの長さの人工コンティグが生成された。 5,000〜10,000 bpの長さの範囲で。グループA、B、およびCは、異なるシーケンシング技術で得られた長さおよび平均アセンブリコンティグ長をシミュレートするように構築された。一方、グループDは、メタゲノムデータ中の長いコンティグをシミュレートするように構築された。

 また、リアルメタゲノムデータを使用して,PPR‐Metaの信頼性を推定した。実際のデータは、 rawリードとしてMG-RAST[ref.30](accessions:mgm 4534202.3およびmgm 4534203.3)からダウンロードされ、SPAdes(v 3.11 .1)[ref.31]によってアセンブリされたウシ第一胃[ref.29]のファージメタゲノムデータを含む(以下略)

 

f:id:kazumaxneo:20190714000635p:plain

Structure of BiPathCNN. 論文より転載

 

インストール

ubuntu16.04にて、condaの仮想環境を作ってテストした(conda create -n ppr_meta python=2.7.15)。テンフロはcpu版を使った。

pip install numpy
pip install h5py
pip install tensorflow==1.4.1 #CPU version
pip install tensorflow-gpu==1.4.1 #GPU version
pip install keras==2.0.8

 本体 Github

git clone https://github.com/zhenchengfang/PPR-Meta.git 
cd PPR-Meta/
chmod +x PPR_Meta

 

When running PPR-Meta through the executable file, MCR should be installed. See

https://www.mathworks.com/help/compiler/install-the-matlab-runtime.html to install MCR.

 

実行方法

 

 

 

 テスト中。

 

引用

PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning
Zhencheng Fang Jie Tan Shufang Wu Mo Li Congmin Xu Zhongjie Xie Huaiqiu Zhu
GigaScience, Volume 8, Issue 6, June 2019

 

 

 関連