塩基配列からコード領域のアミノ酸配列を予測してマルチプルアライメントを行う場合、従来はギャップやミスを補正せず全ての配列をアミノ酸に変換してアライメントを行なっていた。しかしこのような一義的に変換する方法だと、シーケンスエラーや擬遺伝子のstopコドンに引っ張られてアライメント精度がおかしくなる場合があった。
オーサーの発表したMUCSEは、stopコドンなどにペナルティを設定して、擬遺伝子を含むリストでも従来のNeedleman-Wunsch algorithmと同等の精度とスピードでマルチプルアライメントを行う方法論である。
公式サイト
http://bioweb.supagro.inra.fr/macse/index.php?menu=intro
チュートリアルファイル
http://bioweb.supagro.inra.fr/macse/index.php?menu=download
ロシア語のチュートリアルが多く分かりにくい。
インストール
brewで導入できる。
brew install MUCSE
実行方法
brewで導入したなら"macse -prog <commnad>"の形で使う。
alignSequences
元のfastaファイル(先頭5配列)。
このような短いコード領域の配列なら、デフォルトのパラメーターでランする。
macse -prog alignSequences -seq tmem184a.fasta
数分で解析は終わる。
塩基出力(tmem184a_macse_NT.fasta)。
アミノ酸出力(tmem184a_macse_AA.fasta)。
アミノ酸ベースのマルチプルアライメントなので、塩基で確認するとアライメント精度が低い部位もある。
出力ファイル名は-out_NTと-out_AAで変更できる。
genetic codeがスタンダードではない生物の場合、コードを明示して解析する。例えばクロロプラストの遺伝子だと
macse -prog alignSequences -seq poacea_matk.fasta -gc_def 11
NCBI genetic code(http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi)
擬遺伝子も混じっている可能性がある(stopコドンが入る可能性がある)データセットで、擬遺伝子がわかっているなら、ファイルを別々に入力し、ペナルティスコアを個別に与える。この方が精度が高くなる。
macse -prog alignSequences -seq ENAM_genes.fasta -seq_lr ENAM_pseudos.fasta -fs_lr 10 -stop_lr 10
- -seq "reliable" sequences
- -seq_lr "less reliable" sequences
上ではpseudo geneのペナルティスコアを-fs_lr 10 -stop_lr 10にし、信頼できる遺伝子のペナルティスコア(-fsと-stop)をデフォルトでランしている。
NGSリードやcontigを使う場合
NGSのデータを直接使うとシーケンスエラーの可能性があるので、公式サイトではペナルティの与え方をはじめは-fs_lr 10 -stop_lr 15にして、後でチューニングするよう指示している。
macse -prog alignSequences -seq TMEM214.fasta -seq_lr TMEM214.fasta -fs_lr 10 -stop_lr 15
マルチプルアライメントはかなり計算が重くなる。100以上の配列があったりすると、計算が終わるのに非常に時間がかかる。
splitAlignment
アライメント結果から、リストで与えた配列を別ファイルに出力する。
macse -prog splitAlignment -align tmem184a_NT.aln -subset primate_seqId.list
入力したリストは以下のようなものである。
user$ cat primate_seqId.list
>Pongo
>Homo
>Gorilla
>Macaca
>Pan
他にもいくつかのコマンドがある。詳細は公式ページで確認してください。
2016年にversion2にアップデートされ、2018年夏にv2の論文が出ました。
https://academic.oup.com/mbe/advance-article/doi/10.1093/molbev/msy159/5079334
引用
MACSE: Multiple Alignment of Coding SEquences Accounting for Frameshifts and Stop Codons
Vincent Ranwez , Sébastien Harispe, Frédéric Delsuc, Emmanuel J. P. Douzery
PLoS One. 2011;6(9):e22594
Needleman-Wunsch algorithm