macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアゲノムの進化をシミュレートする SimBac

 

 

バクテリア全ゲノムシーケンシングは急速に普及しており、高解像度の遺伝情報を迅速かつ費用対効果の高い方法で提供することにより、multilocus sequence typing(MLST)に取って代わっている(Didelot et al、2012; Wilson、2012)。遺伝学的データを使用して疫学的、系統地理学的、系統的および進化的パターンを推測する計算アルゴリズムは、一般的に組換えによって妨げられている(例:Schierup&Hein、2000; Posada&Crandall、2002; Hedge&Wilson、2014)。細菌の相同組換えを測定、同定、説明する方法が急増している(例:Didelot&Falush、2007; Marttinen et al、2008、2012; Didelot et al、2010; Croucher et al、2015; Didelot&Wilson、2015)。
 異なる方法の性能の評価と比較は、組換えの異なるモデル、特に系統発生的に不一致な部位につながる種内組換え(例えば、Didelot et al、2010)、特定のブランチとゲノム間隔(例:Didelot&Falush、2007)、または置換の蓄積につながる種間組換により複雑になる。細菌進化のシミュレーターは、パラメーターの推定と仮説のテスト(Fearnhead et al、2005; Fraser et al、2005)およびメソッドのテストと比較(Falush et al、2006; Didelot&Falush、2007; Turner et al 、2007、Buckee et al、2008; Wilson et al、2009; Hedge&Wilson、2014)頻繁に使用されているが、使用されているシミュレーションソフトウェアとモデルは、一般に特定の進化モデルを対象としている。この理由の1つは、細菌進化の一般的かつ効率的なシミュレーターの欠如である。
 真核生物の進化のcoalescence(wiki)のシミュレーターは通常、相同組換えに焦点を合わせている(例:Arenas&Posada、2007、2010、2014を参照)。一方、細菌の組換えは一般に遺伝子変換(gene conversion)としてモデル化される。遺伝物質のほとんどはレシピエントから継承されるが、ドナーからインポートされる。多くの高速で近似的なシミュレーション手法(例:Marjoram&Wall、2006; Excoffier&Foll、2011)は、使用される近似が細菌の局所ツリーで予想される長いゲノム距離相関を生成しないため、細菌組換えに適用できない。他の同様の近似方法は、低い細菌組換え率にのみ適している(例:Chen et al、2009; Wang et al、2014)。多くのforward-in-timeシミュレーション法(例:Chadeau-Hyam et al、2008; Dalquen et al、2012)またはdiscrete generation coalescent methods(Excoffier et al、2000; Laval&Excoffier、2004)では遺伝子変換は可能だが、一般に、大きなサンプルまたは集団の全ゲノム進化をシミュレートするには遅すぎる。(一部略)
 ここでは、細菌の進化をシミュレートするための新しい方法であるSimBacを紹介する。 SimBacは、ゲノム全体の細菌進化をシミュレートするための効率的なcoalescentベースのアルゴリズムを実装し、そして古典的な種内組換えモデル(Didelot et al、2009)を拡張する細菌組換えの新しいより一般的なモデルを含む。

 

 

インストール

ubuntu14.04のdockerイメージを使ってテストした。

依存

apt-get install gsl-bin libgsl0-dev libgsl0ldbl

Github

git clone https://github.com/tbrown91/SimBac.git
cd SimBac/
g++ *.cpp -lgsl -lgslcblas -lm -O2 -o SimBac

> ./SimBac

# ./SimBac 

    Usage: SimBac [OPTIONS]

    

    Options:

    -N NUM   Sets the number of isolates (default is 100)

    -T NUM   Sets the value of theta, between 0 and 1 (default is 0.01))

    -m NUM   Sets the minimum probability of mutation in an interval of external recombination between 0 & 1 (default is 0)

    -M NUM   Sets the maximum probability of mutation in an interval of external recombination between 0 & 1 (default is 0)

    -R NUM   Sets the value of R, the site-specific internal recombination rate (default is 0.01)

    -r NUM   Sets the rate of R external, the site-specific rate of external recombination (default is 0)

    -D NUM   Sets the value of delta (default is 500)

    -e NUM   Sets the average length of external recombinant interval (default is 500)

    -B NUM,...,NUM Sets the number and length of the fragments

             (default is 10000)

    -G NUM   Sets the gap between each fragment(default is 0)

    -s NUM   Use given seed to initiate random number generator

    -o FILE  Export data to given file

    -c FILE  Export clonal genealogy to given file

    -l FILE  Export local trees to given file

    -b FILE  Write log file of internal recombinant break interval locations

    -f FILE  Write log file of external recombinant break interval locations

    -g FILE  Write log file of recombinant break interval locations and relevant taxa (Use only recommended for small ARGs)

    -d FILE  Export DOT graph to given file

    -a       Include ancestral material in the DOT graph

 

 

実行方法

100 isolates、ゲノムサイズ1Mb、組み換え率1%でシミュレートする。

SimBac -N 100 -B 1000000 -R 0.01 -T 0.01 -o outs.fasta -c clonal_frame.nwk
  • -R    Sets the value of R, the site-specific internal recombination rate (default is 0.01) 
  • -B    Sets the number and length of the fragments (default is 10000)
  • -T    Sets the value of theta, between 0 and 1 (default is 0.01))
  • -N    Sets the number of isolates (default is 100)
  • -o    Export data to given file
  • -c    Export clonal genealogy to given file

newickフォーマットのツリーファイル、1Mbのゲノム100配列からなるmulti-fastaファイルが出力される。

 

引用
SimBac: simulation of whole bacterial genomes with homologous recombination.

Brown T, Didelot X, Wilson DJ, Maio N

Microb Genom. 2016 Jan 19;2(1)