macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

数百から数千のバクテリアゲノムの同時比較を行うHarvest

 

Harvestは数百、数千のバクテリアのゲノム比較を高速に実行する方法論。同じ種のほぼ同一なゲノムの比較を対象としている。labo-strainのような非常に似ているがわずかに変異が出現したような株同士のマルチプルアライメントを行い、バリアントの出現パターンを可視化し、同時に系統樹を出力することが可能である。

 

公式ページ

http://harvest.readthedocs.io/en/latest/#

ダウンロード

Github

https://github.com/marbl/parsnp

PDFマニュアル

https://media.readthedocs.org/pdf/harvest/latest/harvest.pdf

  

インストール

harvestパッケージは公式サイトからダウンロードする。

http://harvest.readthedocs.io/en/latest/

 

parsnpだけならwgetでダウンロードできる (上記のダウンロードにparsnpは入っている)。

wget https://github.com/marbl/parsnp/releases/download/v1.2/parsnp-OSX64-v1.2.tar.gz
tar -xvf parsnp-OSX64-v1.2.tar.gz

 

 

実行方法

解析の流れ

parsnpでゲノム同士のアライメントを行い、マルチアライメント結果、variants(SNVやindel)、系統樹を出力する。それらをGUIアプリのGingrに読み込ませて解析結果を一覧表示する。

 

parsnpによるアライメント。

-gでリファレンスゲノムのgenbankファイルを指定する。また、-dで指定したディレクトリの中に、比較したいバクテリアのゲノム(またはアセンブルして作ったcontigを全て入れておく)。このような感じになる。

f:id:kazumaxneo:20171126204534j:plain

標準条件でのラン。

./parsnp -g ref.gbk -d contig/ -p 8
  • -g Gen(b)ank file(s) (gbk), comma separated list (default = None)
  • -d (d)irectory containing genomes/contigs/scaffolds
  • -p  number of threads to use? (default= 1)

 

 

 テストデータのラン。

 比較ゲノムデータ(harvest-master/docs/content/parsnp/mers42.tar.gzとmers49.tar.gzを解凍、またはチュートリアルよりダウンロード )

リファレンス(mers42と49を解凍してその中にあるref/)

./parsnp -g EMC_2012.gbk -d mers42/ -c
  •  -c (c)urated genome directory, use all genomes in dir and ignore MUMi? (default = NO)

 

GUIアプリGingrで開く。

f:id:kazumaxneo:20171126203634j:plain

open Gingr.app #ターミナルから開くなら

 

 > FIle openでparsnp.ggrを選択。

f:id:kazumaxneo:20171126203716j:plain

 

結果が表示される。

f:id:kazumaxneo:20171126203840j:plain

 

MacBookのTrackpad(またはマウスのホイール)を2本指で上下することで、スムーズな拡大縮小が可能。

塩基が表示されるまで拡大。

f:id:kazumaxneo:20171126204134j:plain

縮小。上の方にあるcDNAのアイコンをダブルクリックすれば、cDNA全長が収まるサイズに縮尺を自動調整してくれる。

f:id:kazumaxneo:20171126204308j:plain

 

File -> export variants(VCF)を選択し、VCFファイルを出力。

f:id:kazumaxneo:20171128230047p:plain

 全ての変異が行列で出力される。そのポジションで変異があった株は1、変異がなかった株は0と表示されている。

 

 他のテストデータ

https://www.cbcb.umd.edu/software/harvest

 

 

引用

The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes.

Treangen TJ, Ondov BD, Koren S, Phillippy AM.

Genome Biol. 2014;15(11):524.