mauveはよく似たゲノムのアライメントを行い、その結果を見やすいビューアで表示して比較できるソフトである。Mac、windows、Linux版が用意されており、無償でダウンロードできる。
ダウンロードは公式サイトから行う。
the Darling lab | computational (meta)genomics
コマンドライン版もあり、そちらの方が細かくアライメントパラメータを選択できるが、ここでは使いやすいGUI版 (javaのプログラム) を説明する。
Align with progressive mauveを選ぶ。
FilesタブのAdd sequenceを選び比較する配列ファイルを選択。入力は、fasta、gbkに対応している。
Parametersタブでパラメータを設定。デフォルトで進める。
Scoresタブ。アライメントのスコアとペナルティ設定。デフォルトで進める。
最後にAlignを押しジョブを開始させる。
ラン中はジョブの進捗が別ウィンドウで表示される。
5Mbくらいのゲノム3つを比較すると、解析に10分くらいかかる。
3ゲノムを比較した動画が以下になる。一番上がcanuでE.coliのロングリードをアセンブルして作ったcontig.fa、2つ目がE.coliのgene bankファイル、3つ目がspadesでショートリードとロングリードをhybridして作ったcontig.faである。
動画のように、気になる領域に移動してアライメントを調べられる。genbankを入れておけば、orf情報を表示させることもできて便利である。動画の後半では,SNPs、indelを出力している。
ゲノムサイズが100Mbを超えると重く使いづらくなるので、ゲノムが小さい生物の比較に向いている印象を受けた。ただし、mauveの論文 (ref.1) ではmouseやヒトゲノムを比較しており、使えないことはない。
アライメントできるtoolは多いが、mauveのように各OSに対応しており、アライメントして結果をGUIで確認できるソフトはなかなかないと思う。よかったら試してみてください。
アセンブリした配列とリファレンス配列を比較する時は、contigのFASTAファイルをソートしてから比較した方が見やすくなります。ソートしてからprogressive mauveを走らせるには、以下の流れで実行してください。
引用
Mauve: Multiple Alignment of Conserved Genomic Sequence With Rearrangements
Aaron C.E. Darling,1,2,6 Bob Mau,2,3 Frederick R. Blattner,4,5 and Nicole T. Perna2,5
Genome Res. 2004 Jul; 14(7): 1394–1403. doi: 10.1101/gr.2289704
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC442156/