2019 6/13 説明及びインストール追記
2019 6/21 コマンド微修正
2019 7/3 説明修正
2019 7/15 help追記
2019 9/29 twitter追加
2019 11/4 関連追加
2019 11/13 誤字修正
2020 4/15 タイトル修正
2020 5/30 link追加
MAFFT開発秘話。私が4回生で宮田研に加わった時、まず手動で多重アラインメントする訓練から始まりました。研究室内部で使われていたそのエディタに、後にMAFFTの主軸となるアルゴリズムが間もなく入りました。Xcedと呼ばれた、メンバーしか知らないエディタです。https://t.co/KVeCggUcCO
— 🧬Shigehiro Kuraku🦈工樂 樹洋 (@sighex) September 28, 2019
MAFFTはマルチプルアライメントを行うツール。t-coffeeやclustal omegaより高速に動作するとされる。HPに数百のrRNA配列に対してマルチプルアライメントを実行する例が載っている。
クイックマニュアル
Tips
https://mafft.cbrc.jp/alignment/software/tips0.html
インストール
macOSX版ダウンロード
MAFFT for Mac OS X - a multiple sequence alignment program
pkgファイルを叩き、指示に従ってインストールする。brewで導入することもできる。
追記
#bioconda (link)
mamba install -c bioconda -y mafft
> mafft -h
$ mafft -h
/Users/user/.pyenv/versions/miniconda2-4.3.30/bin/mafft: Cannot open -h.
------------------------------------------------------------------------------
MAFFT v7.407 (2018/Jul/23)
https://mafft.cbrc.jp/alignment/software/
MBE 30:772-780 (2013), NAR 30:3059-3066 (2002)
------------------------------------------------------------------------------
High speed:
% mafft in > out
% mafft --retree 1 in > out (fast)
High accuracy (for <~200 sequences x <~2,000 aa/nt):
% mafft --maxiterate 1000 --localpair in > out (% linsi in > out is also ok)
% mafft --maxiterate 1000 --genafpair in > out (% einsi in > out)
% mafft --maxiterate 1000 --globalpair in > out (% ginsi in > out)
If unsure which option to use:
% mafft --auto in > out
--op # : Gap opening penalty, default: 1.53
--ep # : Offset (works like gap extension penalty), default: 0.0
--maxiterate # : Maximum number of iterative refinement, default: 0
--clustalout : Output: clustal format, default: fasta
--reorder : Outorder: aligned, default: input order
--quiet : Do not report progress
--thread # : Number of threads (if unsure, --thread -1)
実行方法
公式サイトから59のrRNAの配列のFASTAをダウンロードできる(リンク)。これを使ってみる。example 1のmulti fastaをダウンロード。
ダウンロードした配列を指定してautoモードでラン。
mafft --auto ex1.txt > output
マルチプルアライメント結果が出力される。
ユーザーと対話式でランもできる。
mafft
user$ mafft
---------------------------------------------------------------------
MAFFT v7.305b (2016/Aug/16)
Copyright (c) 2016 Kazutaka Katoh
MBE 30:772-780 (2013), NAR 30:3059-3066 (2002)
http://mafft.cbrc.jp/alignment/software/
---------------------------------------------------------------------
Input file? (fasta format)
ex1.txt
Output file?
@ out
Output format?
1. Clustal format / Sorted
2. Clustal format / Input order
3. Fasta format / Sorted
4. Fasta format / Input order
5. Phylip format / Sorted
6. Phylip format / Input order
@ 1
OK. arguments = --reorder
Strategy?
1. --auto
2. FFT-NS-1 (fast)
3. FFT-NS-2 (default)
4. G-INS-i (accurate)
5. L-INS-i (accurate)
6. E-INS-i (accurate)
@ 1
OK. arguments = --auto --reorder
Additional arguments? (--ep # --op # --kappa # etc)
@
command=
"/usr/local/bin/mafft" --auto --clustalout --reorder "ex1.txt" > "out"
OK?
@ [Y] y
指示に従って実行する。
産業技術総合研究所のhttps://mafft.cbrc.jp/alignment/server/ にアクセスする。
こちらではmafftを使ったマルチプルシーケンスアラインメント(MSA)の他に、MSAから各種方法による分子系統樹作成までほぼ自動で行える。
FASTAファイルをウィンドウ内にペーストするか、ファイルを選択からアップロードする。
ラン後、上のメニューボタンからMSAViewerに切り変えれば結果を視覚化できます。
viewerはjava webスタートとしてlocalでも実行できる。
マルチプルシーケンスアラインメントをすでに実行済なら、.alnファイルを提供することで系統推定だけ行うこともできる。
Molecular phylogeny by the NJ / UPG methods
ツリーのみ描画
Rough clustering of Unaligned Sequences
追記
1、通常、アミノ酸配列は大文字で、塩基配列は小文字で出力される。
https://academic.oup.com/mbe/article/30/4/772/1073398
しかし何らかの理由で小文字と大文字を使い分けている場合、小文字は小文字のまま、大文字は大文字のまま、すなわち入力ファイルの状態で出力したい事がある。そのような時は--preservecaseオプションをつけてランする。この場合、入力ファイルが小文字なら小文字のまま、大文字は大文字のまま出力されるが(混ざっていても動作する)、一部の大文字を想定したMSAビューアではエラーになるので注意。
2、デフォルトでは入力配列と同じ順番で出力されるが、--reorderオプションを使うと配列の類似性によりソートして出力される。
引用
MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform.
Katoh, Misawa, Kuma and Miyata
Nucleic Acids Res. 30:3059-3066, 2002
MAFFT version 5: improvement in accuracy of multiple sequence alignment.
Katoh, Kuma, Toh and Miyata
Nucleic Acids Res. 33:511-518, 2005
PartTree: an algorithm to build an approximate tree from a large number of unaligned sequences.
Katoh and Toh
Bioinformatics 23:372-374, 2007
MAFFTを使ってマルチプルアラインメントを行う 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル
関連
コンセンサス配列出力
メモ
*Sierra環境でconfig errorが出たが、環境変数のリセット "unset MAFFT_BINARIES" を打つことで修復できた。