macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノム比較 x 変異コール x ビューア を統合したGUI(CUI)ツール Mauve

 

mauveはよく似たゲノムのアライメントを行い、その結果を見やすいビューアで表示して比較できるソフトである。MacwindowsLinux版が用意されており、無償でダウンロードできる。

 

ダウンロードは公式サイトから行う。

the Darling lab | computational (meta)genomics

コマンドライン版もあり、そちらの方が細かくアライメントパラメータを選択できるが、ここでは使いやすいGUI版 (javaのプログラム) を説明する。

 

Align with progressive mauveを選ぶ。

f:id:kazumaxneo:20170623123720j:plain

 

FilesタブのAdd sequenceを選び比較する配列ファイルを選択。入力は、fasta、gbkに対応している。

f:id:kazumaxneo:20170627133520j:plain

   

Parametersタブでパラメータを設定。デフォルトで進める。

f:id:kazumaxneo:20170623124216j:plain

 

Scoresタブ。アライメントのスコアとペナルティ設定。デフォルトで進める。

f:id:kazumaxneo:20170623124304j:plain

最後にAlignを押しジョブを開始させる。

 

ラン中はジョブの進捗が別ウィンドウで表示される。

f:id:kazumaxneo:20170623124005j:plain

5Mbくらいのゲノム3つを比較すると、解析に10分くらいかかる。

 

3ゲノムを比較した動画が以下になる。一番上がcanuでE.coliのロングリードをアセンブルして作ったcontig.fa、2つ目がE.coliのgene bankファイル、3つ目がspadesでショートリードとロングリードをhybridして作ったcontig.faである。

動画のように、気になる領域に移動してアライメントを調べられる。genbankを入れておけば、orf情報を表示させることもできて便利である。動画の後半では,SNPs、indelを出力している。

 

ゲノムサイズが100Mbを超えると重く使いづらくなるので、ゲノムが小さい生物の比較に向いている印象を受けた。ただし、mauveの論文 (ref.1) ではmouseやヒトゲノムを比較しており、使えないことはない。

アライメントできるtoolは多いが、mauveのように各OSに対応しており、アライメントして結果をGUIで確認できるソフトはなかなかないと思う。よかったら試してみてください。

 

アセンブリした配列とリファレンス配列を比較する時は、contigのFASTAファイルをソートしてから比較した方が見やすくなります。ソートしてからprogressive mauveを走らせるには、以下の流れで実行してください。

 

 

引用

Mauve: Multiple Alignment of Conserved Genomic Sequence With Rearrangements

Aaron C.E. Darling,1,2,6 Bob Mau,2,3 Frederick R. Blattner,4,5 and Nicole T. Perna2,5

Genome Res. 2004 Jul; 14(7): 1394–1403. doi: 10.1101/gr.2289704

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC442156/