macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

近縁な何百~何千のバクテリアの系統解析を行うGubbins

 

ハイスループット第二世代のDNAシーケンス技術が導入されて以来、細菌集団の系統力学を推定するために使用されるデータセットのサイズが非常に大きくなってきている。多くの系統学的手法は数百の細菌ゲノムに拡張可能であるが、配列の水平転移のメカニズムが系統再構成に与える影響を緩和するために使用されてきた手法は、これらの新しいデータセットには対応できない。Gubbins (Genealogies Unbiased By recomBinations In Nucleotide Sequences)は、高い塩基置換密度を持つ遺伝子座を反復的に同定するアルゴリズムであり、同時にこれらの領域の外側にあると考えられる点突然変異に基づいて系統マップを構築する。シミュレーションにより、このアルゴリズムが細菌の短期進化の現実的なモデルの下で非常に正確な再構成を生成し、数百の細菌ゲノム配列のアラインメントをわずか数時間で実行できることが実証された。

 

 

 インストール 

Github

github.com

 

#bioconda
conda install -c bioconda -y gubbins

#homebrew
brew install gubbins

  

ラン

ランにはマルチプルアライメント実行済みのファイルを使う。マニュアルではゲノムのマルチプルアライメントのツール例としてSnippyが挙げられている(Snippyの使い方)。

 

ここでは論文中のマルチプルアライメント実行済みalnファイルがダウンロードできるので、これを使う。 Gitの公式ページからダウンロード(下の方ののftp://ftp.〜から)。

ダウンロードしたalnファイルを指定して実行。

run_gubbins.py ST239.aln 

数分で解析は終わる。

いくつかのファイルが出力される。詳細はGithubトップページ参照。

f:id:kazumaxneo:20171210211327j:plain

 

出力される系統樹ファイルST239.final_tree.tre(newick format )をFigtreeで開く。

f:id:kazumaxneo:20171210210513j:plain

 フォントやノードのサイズはFigtree -> Preferencesから調整。

 

 

 

引用

Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins

Nicholas J. Croucher Andrew J. Page Thomas R. Connor Aidan J. Delaney Jacqueline A. Keane Stephen D. Bentley Julian Parkhill Simon R. Harris

Nucleic Acids Research, Volume 43, Issue 3, 18 February 2015, Pages e15, https://doi.org/10.1093/nar/gku119

 

Figtree

http://tree.bio.ed.ac.uk/software/figtree/