macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムのファージ配列分析webサーバー VirMiner

2019 6/15 誤字修正

 

 ウイルスは、それらの恒常性および進化に寄与する微生物群集の必須の構成要素である。ヒトの腸内細菌叢のウイルス群集はバクテリオファージが支配的である[ref.1]。ファージは遺伝子水平伝播(HGT)[ref.2]によって細菌群集の構造と機能を調節することができ、それによって病原性、抗生物質耐性、およびバイオフィルム形成を含む細菌表現型を変化させる[ref.3、4、5]。このようなファージ誘発性の変化は、細菌の病原性および抗生物質耐性に影響を与えることによって潜在的な健康上のリスクを引き起こす可能性がある。例えば、ファージはコレラ菌のような通性病原体の病原性に影響を与える[ref.6]。志賀毒素のような、いくつかのファージコード化された毒性因子が発見されており[ref.7]、これは多くの細胞型においてアポトーシスを誘導することが示されている[ref.8、9]。一方、抗生物質耐性菌増加におけるファージの役割はまだ物議をかもしている。伝統的に、ファージは抗生物質治療のようなストレス下での細菌適応における遺伝的貯蔵庫と考えられていた。抗生物質耐性遺伝子が抗生物質治療マウス由来のファージに高度に濃縮されていることが実験的に証明されている[ref.10]。しかしながら、最近の研究[ref.11]において、研究者らは、抗生物質耐性遺伝子(ARG)の存在はファージゲノムにおいて非常に過大評価されていると結論付けた。探索的バイオインフォマティクス戦略を通して、彼らは1181の公に利用可能なファージゲノム中から2つの既知ARGおよび421の新たに予測されたARGを同定した。しかしながら、彼らの実施した大腸菌で4つのARGを発現す実験では、抗生物質耐性増加を引き起こさなかった。矛盾する知見は、抗生物質耐性の増殖およびヒトの健康におけるファージの役割が十分に理解されていないことを示している。

 バクテリオファージが健康関連のウイルス群集の重要な部分を占めているとしても、ファージのより深い理解を得ることは、ウイルスの単離および精製における困難性のために依然として挑戦的である[ref.12、13、14]。しかし、原核細胞とウイルスの両方から同時にゲノムリードを生成するメタゲノムシーケンシングの使用は、生態学的および臨床サンプルのメタゲノムからファージゲノムを回収することによってウイルス研究を劇的に促進した[ref.15、16、17]。このアプローチを用いて、抗生物質耐性遺伝子もコードする、一組の潜在的な腸特異的Bacteroidales-likeファージがヒトの腸内微生物ゲノム内で同定された[ref.17]。別の研究では、分類群特異的マーカー遺伝子を用いて世界中の207の個人からの便メタゲノムに含まれるファージ分類群を分類および定量化し[ref.18]、ヒト集団間での特定のファージ分類群の量の違いを見出した。したがって、phageomeの分類学的および機能的組成ならびにファージ - 宿主相互作用は、メタゲノムデータを直接使用して明らかにすることができた。さらに、マイクロバイオームについてのより良い生態学的理解、およびそれらがヒトの健康に与える影響についてのより深い洞察を得ることができる。

 バクテリアとファージの混合配列からファージコンティグを同定することは、メタゲノム研究におけるファージ分析にとって必要かつ重要なステップである。ファージ配列またはプロファージ領域を同定するための現在のツールのほとんど、すなわちPhage Finder [ref.19]、Prophage Finder [ref.20]、Prophinder [ref.21]、およびPHAST [ref.22]などは、viromeシーケンシングまたは原核生物ゲノムシーケンシングには適しているが、メタゲノムデータからファージ配列を同定するようには設計されておらず、そしてマイクロバイオームからファージおよびバクテリア配列を効率的に分離することはできない。

 Metaphinder [ref.23]は、メタゲノムシーケンスデータからファージコンティグを同定するように開発されたWebサーバーである。しかしながら、これら全ての前述のツールは、現在のデータベース中の既知のファージ配列に対する相同性検索を通してファージ配列を同定する。微生物群集に感染しているウイルス粒子は1031あると推定されているが、現在のデータベースにはわずか数千のウイルスゲノムしか登録されていない[ref.24、25]。したがって、現在のツールは、未知または未培養のファージを多数無視する可能性がある。

 メタゲノムデータから未知のファージを予測するために、最近VirSorter [ref.26](紹介)とVirFinder [ref.12]が開発された。 VirSorterは、「major capsid protein」、「portal」、「terminase large subunit」、「spike」、「tail」、「virion formation」として定義される「特徴」遺伝子の存在を検出するためにウイルスタンパク質配列の2つのリファレンスデータベースを採用した。メタゲノム名の各コンティグには、「、」または「coat」の注釈を付ける。さらに、VirSorterは、ウイルス様遺伝子、Pfam関連遺伝子、短い遺伝子、およびstrand交換における枯渇を含む他の測定基準を使用して、予測されたウイルス領域の信頼レベルを測定するための確率モデルを構築する。これに基づいて、メタゲノムコンティグを3つのカテゴリーに分類することができる:検出されたウイルス様遺伝子およびウイルスホールマーク遺伝子の有意なエンリッチメントを有する配列(検出されたウイルス様遺伝子またはウイルスホールマーク遺伝子の有意なエンリッチメントを有する配列)。 (「可能性が高い」)、および既知のウイルスリファレンスとは異なるが既知のウイルスゲノムとは構造的に類似している(「可能性がある」)配列。対照的に、VirFinderは経験的にウイルスとファージのk-mer頻度が異なると仮定しているため、メタゲノムサンプルのウイルスシグナルを決定するためにk-merベースの機械学習モデルを構築した。どちらのツールも優れた予測パフォーマンスを示している。しかし、性能評価は、ウイルスコンティグの割合を人為的に設定することによって生成されたmock メタゲノム[ref.12、26]に基づいていたため、実際のサンプルに対する予測能力を反映することはできない。本著者らの分析は、前述のツールを評価するために使用される構成が、ヒトの腸内の実際のミクロバイオーム構成とは大きく異なることを明らかにした。その上、VirSorterとVirFinderが微生物群内のファージ分析のために提供する機能は比較的限られている。ファージコンティグを同定した後、ファージ - 宿主相互作用などのさらなる分析は提供されず、それは特定のストレスに応答したファージの重要な役割を明らかにし得る。したがって、微生物群集内でのファージの可能性のある役割についてのより深い理解を提供するために、より強力なツールが必要である。

 ここでは、メタゲノムデータから、特に豊富なファージコンティグのために、ファージコンティグを識別するためにランダムフォレストモデルを使用する、ユーザーフレンドリーなWebツールVirMinerを開発した。実際のメタゲノムデータにおいてより高い予測を達成するために、VirMinerを抗生物質で処理された10人の個体の精製ファージライブラリーのpaired phageomesおよび長期サンプリングにより、ヒト腸内微生物メタゲノムの訓練および評価を行った。さらに、VirMinerはいくつかのハイライトを含む包括的な分析パイプライン、すなわち(1)rawリード処理、オンサイトメタゲノムアセンブリ、および遺伝子予測。 (2)Pfam、KEGGオロソログ(KO)、ファージオルソロググループ(POG)、ウイルスタンパク質ファミリー、およびウイルス特徴を含む包括的なfunctional annotation。 (3)ファージコンティグ識別のための高感度ランダムフォレスト(RF)予測モデル。これは、豊富なファージコンティグの識別において優れた性能を示す。 (4)ファージ - 宿主関係予測およびCRISPR部位認識。 (5)異なるサンプル群間の統計的比較、を提供する。

 

f:id:kazumaxneo:20190421210009p:plain

The workflow of VirMiner.  論文より転載。

 

help

http://147.8.185.62/VirMiner/help.php

 

 

使い方

HPにアクセスする。下の方にあるstart analysisボタンをクリック。

f:id:kazumaxneo:20190421210055p:plain

fastqファイルを指定する (Please make sure the names of unzipped pair-end FASTQ files are ended with "_1.fastq" or "_2.fastq").  複数同時にuploadしても問題ない。gzip圧縮には対応していない。
f:id:kazumaxneo:20190421210803p:plain

2サンプル間比較を行いたい場合、メタデータファイルもアップする必要がある。1列目がfastq名、2列目が条件になる。ファイル名は"filenames_comparison.txt"にする。

f:id:kazumaxneo:20190606214839p:plain

 

アップロードが終わったら、Emailを記載して送信ボタンを押す。

 

送信ボタンを押すと画面が下のように切り替わり、さらにデータを追加することもできる。これで

f:id:kazumaxneo:20190421211433p:plain

OKならstart the analysisボタンを押すことでジョブが開始される。

 

 

f:id:kazumaxneo:20190421212131p:plain

アップロードされたfastqは、クオリティトリミング後、IDBA_UDでde novo assemlyされ、HMMを使うMetaGeneMarkによってcontigsからORFが予測される。それから論文(helpも参照)の条件で事前学習されたランダムフォレストモデル(link)に従ってcontigsはphageかそれ以外に分類され、NCBI GenBankの3319のphagefゲノム配列とその taxonomy情報をもとに学習された単純ベイズ分類器(もともとrRNAを分類するために使用されていたRDP Classifier )によってtaxonomic rankがアサインされる。 Shannonインデックス、Simpsonインデックス、Pielou均等性インデックスを含む微生物多様性インデックスは、属および種レベルの両方でRパッケージを使用して計算される。グループ間の比較にはウィルコクソンの順位和検定が使われている。

 

 

viral contigs間の豊富さトップ50 Pfamによるヒートマップ

f:id:kazumaxneo:20190613013728p:plain

 

Pfamの豊富さに基づくMDRによるクラスタリング

f:id:kazumaxneo:20190613013546p:plain

viral contigs間の豊富さトップ50 KEGG orthologyによるヒートマップ

f:id:kazumaxneo:20190613013749p:plain

Viral cotingsのKEGG pathway相対量

f:id:kazumaxneo:20190613013755p:plain

KEGG pathway classの豊富さによるヒートマップ

f:id:kazumaxneo:20190613013801p:plain

 

KEGG orthologyの豊富さに基づくMDRによるクラスタリング

f:id:kazumaxneo:20190613013808p:plain

phageコミュニティのジーナスレベルのmicrobial diveristy

f:id:kazumaxneo:20190613013809p:plain

 

phageコミュニティのspeciesレベルのmicrobial diveristy

f:id:kazumaxneo:20190613013814p:plain

 

Phage-host interaction network

f:id:kazumaxneo:20190613013825p:plain

f:id:kazumaxneo:20190613013830p:plain

Phage-host network

f:id:kazumaxneo:20190613013840p:plain

f:id:kazumaxneo:20190613013848p:plain

ランが終わるとメールが届く。

f:id:kazumaxneo:20190613163222j:plain

curlwgetでまとめてダウンロードする。

wget -r -np http://147.8.185.62/VirMiner/tasks/201961313249

f:id:kazumaxneo:20190613165716j:plain


 

 

感想

多機能かつユーザフレンドリな解析ツールです。2、3ヶ月に渡ってトライしましたが、しばしばfastqをuploadして新規データ解析することができなくなることがありました。メタゲノムのraw fastqをアップロードする仕様のため、重すぎてパンクしているのかもしれません。どうしてもすぐに使いたい場合は、混雑状況についてオーサーらに問い合わるか、データを削減してuploadすることも検討してください。

VirMiner - Contact

引用

Mining, analyzing, and integrating viral signals from metagenomic data
Tingting Zheng, Jun Li, Yueqiong Ni, Kang Kang, Maria-Anna Misiakou, Lejla Imamovic, Billy K. C. Chow, Anne A. Rode, Peter Bytzer, Morten Sommer, Gianni Panagiotou
Microbiome 2019 7:42

 

 

関連


 参考