macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ゲノムのマルチプルアライメントを行う Mugsy

Mugsyはnucmerを内部で動かし、all against allのペアワイズアライメントを行い、ゲノムサイズのマルチプルアライメントを可能にする方法論。論文では31のバクテリアゲノムを2時間以内に解析できたと記載されている。

 

公式サイト

http://mugsy.sourceforge.net

 

ダウンロード

macでは動作しなかったのでcent OS6に導入した。 

sorceforge

https://sourceforge.net/projects/mugsy/files/

mummerも内部に含まれている。 

中のmugsyenv.shを開き、2行目のパスをmugsyがあるパスに変更し、sourceする。

source mugsyenv.sh
mugsy -h #動作確認

 

ラン

アライメント

mugsy --directory ./output -p mygenomes genome1.fa genome2.fa genome3.fa genome4.fa
  • --directory directory used to store output and temporary files. Must be a absolute path
  • -p prefix for output files

 

maf形式で出力される。

> mygenomes.maf

##maf version=1 scoring=mugsy

a score=1239890 label=1 mult=5

s 1788.1788             873135 1116720 + 1989855 TCAAG--AAT-ATGACAATACAGGGAGTGGAAATTTATAACCTGAAAAGTGGAATGAATAATAGAAACGAAAAAGGCAAGGAGTTTGCCATGATTGGAAAGAACATAAAATCCTTACGTAAAACACATGACTTAACACAACACGAATTTGCACGGATTGTAGGTATTTCACGAAATAGTCTGAGTCGTTATGAAAATGGAACGAGT---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ATTGTGAAAGAAAGAGGTGCTAATCTATTATCTCGACTCTATCGCTATCAAGATAGTCAGGGAATTAGCATTGATGATGAATCTAATCCTTGGATT----------------------------------------T-TAATGAGTGATGATCTTTCTGATTTGATTCATACGA-A-AAT-------------------------------------CTGAAAAGCGGATGGTAGCTTAATGGAAATCCAAGATTATACTGATAGTGAATTCAAACATGCTTTAGCAAGGAATCTTCGTTCACTGACAAGAGGAAAAAAGTCCAGTAAGCAACCTATAGCGATTTTGCTTGGAGGTCAAAGTGGTGCCGGTAAGACTA

mafは例えばmaftoolsなどでパースすることができる(maftools)。

 

テストデータとして、harvest suitsで提供されているデータなどが使えると思います。

https://www.cbcb.umd.edu/software/harvest

 

引用

Mugsy: fast multiple alignment of closely related whole genomes 

Samuel V. Angiuoli Steven L. Salzberg Author Notes

Bioinformatics, Volume 27, Issue 3, 1 February 2011, Pages 334–342