ウイルスは、ほとんどすべての既知の生態系の重要な構成要素である(Edwards and Rohwer、2005)。それらは、優占種を枯渇させることによって海洋から人間の腸までの様々な環境における生物多様性を調節し(De Paepe et al、2014; Lehahn et al、2014)、海の1日のバイオマスの20%の死の原因であるとさえ推定される(Suttle、2007)。したがって、ウイルスは、微生物の生態と動態を理解する上で中心的な役割を果たす。
ファージ(すなわち、バクテリアおよびアーキアに感染するウイルス)が世界規模のウイルス圏の大部分を占めているとしても、それらの包括的な研究はそれらの宿主を単離および培養する必要性によって妨げられてきた。ウイルスメタゲノミクスはこの制限を回避し、広範囲の環境からの新たなウイルスゲノム配列をますます明らかにしている(Bolduc et al、2016; Edwards and Rohwer、2005)。欠点として、これらの新たに発見されたウイルスについては宿主の身元が不明のままであり、マイクロバイオームに関する我々の生態学的理解を制限している。共存量、配列相同性、他のファージとの類似性(Villarroel et al、2016)、またはウイルスとそれらの宿主との間の配列組成の類似性のいずれかに基づいて、メタゲノムにおけるファージ配列について原核生物宿主を予測する異なる方法が存在する (Edwards et al, 2016, pubmed)。
この最後のアプローチを使うツールの中で、VirHostMatcher(Ahlgren et al、2016)は、完全長のウイルスゲノムに関して最高の正確さ(正しい予測の割合)を報告している:データセットに応じて属レベルで33から64%の間。しかし、その性能は特に短い配列では低下し、5 kbpの長さでは36%低下する。しかしながら、数kbp長のコンティグは、対象範囲が狭いことと集団内変動のために、ウイルスメタゲノムデータでは一般的である(Smits et al、2014)。さらに、VirHostMatcherの実行時間は、大きなデータセットでの使用を妨げる(論文補足表S5)。この論文では、WIsHを紹介する。これは、3 kbp程度の短いコンティグに対してVirHostMatcherよりも数百倍高速に実行される原核生物のウイルスコンティグを正確に予測するためのツールである。
宿主予測に古典的に使用される推定k-mer頻度は、短いファージコンティグについては非常にノイズが多くなる。そのため、適切な確率論的アプローチを採用した。まず、各潜在的宿主ゲノムについて、次数8の同次性マルコフモデル(補足図S2)を訓練する(WIsH -c build -g prokaryoteGenomesDir -m modelDir)。次に、訓練された各マルコフモデルの下でのコンティグの可能性を計算し(WIsH -c predict -g phageContigsDir -m modelDir -r outputResultDir)、de novo(つまり、既知のファージ - ホスト間の相互作用に頼らずに)で最も可能性が高いものを予測する(補足資料の詳細)。
WIsHは、各マルコフモデルのガウスの帰無分布のパラメーターを指定すると、P値を計算できる。 Gaussianパラメータは、補足資料のセクションS1.2で説明されているように各モデルに対して事前計算されている。
インストール
本体 GIthub
ここではdokcerイメージをビルドして使う。
git clone https://github.com/soedinglab/WIsH.git
cd WIsH/
docker build -t wish .
> docker run --rm -itv $PWD:/data/ wish -h
$ docker run --rm -itv $PWD:/data/ wish -h
WIsH (v1.0) is a tool for predicting bacterial hosts from phage (meta)genomic data.
© Clovis Galiez (clovis.galiez@mpibpc.mpg.de)
Usage :/WiSH/WIsH [options]
Options:
-c Command to be executed (build or predict)
-k Order for building the Markov chain (default is 8)
-a Pseudo-count parameter (default is 16.000000)
-t Number of threads to be used (default is 1)
Path specifications:
-g Specifies the genome directory (read access)
-m Specifies the model directory (read/write access)
-r Specifies the result directory (write access)
Score options:
-b Outputs a file containing for each viral sequence the host with highest likelihood
-p Outputs a matrix of p-values for every prediction (slows down the predictions)
-z Normalize the matrix of log-likelihood as z-scores
-n Specifies the parameters for the distribution of negative values of each model
Format should be: modelName<Tab>mean<Tab>standardDeviation
Example for building models:
WIsH -c build -g prokaryoteGenomesDir -m modelDir
Example for predicting hosts:
WIsH -c predict -g virusGenomesDir -m modelDir -r outputResultDir
OpenMP supported.
実行方法
1、バクテリアゲノムからモデルを構築。可能性があるホストゲノムを全てを入れたディレクトリを準備して実行する。
mkdir modelDir
#ホストゲノムのfastaをmodelDir/に移動
mv host.fasta modelDir/
WIsH -c build -g prokaryoteGenomesDir -m modelDir
用意したゲノムについてモデルファイルが出力される。
2、予測。可能性があるphage contigを全てディレクトリに入れて実行する。
mkdir phageContigsDir
mkdir outputResultDir
#phageのcontig.fastaをphageContigsDir/に移動
WIsH -c predict -g phageContigsDir -m modelDir -r outputResultDir -b
ホストとphageの全組み合わせについて尤度を予測した行列ファイルが出力される。
引用
WIsH: who is the host? Predicting prokaryotic hosts from metagenomic phage contigs
Clovis Galiez, Matthias Siebert, François Enault, Jonathan Vincent, Johannes Söding
Bioinformatics, Volume 33, Issue 19, 1 October 2017, Pages 3113–3114