macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

マルチプルシーケンスアラインメントを行うMAFFT

2019 6/13 説明及びインストール追記

2019 6/21 コマンド微修正

2019 7/3 説明修正

2019 7/15 help追記

2019 9/29 twitter追加

2019 11/4 関連追加

2019 11/13 誤字修正

2020 4/15 タイトル修正

2020 5/30 link追加

 

 

 

MAFFTはマルチプルアライメントを行うツール。t-coffeeやclustal omegaより高速に動作するとされる。HPに数百のrRNA配列に対してマルチプルアライメントを実行する例が載っている。

 

クイックマニュアル

Manpage of MAFFT

Tips

https://mafft.cbrc.jp/alignment/software/tips0.html

 

インストール

macOSX版ダウンロード

MAFFT for Mac OS X - a multiple sequence alignment program

pkgファイルを叩き、指示に従ってインストールする。brewで導入することもできる。

追記
#bioconda (link)
mamba install -c bioconda -y mafft

mafft -h

$ mafft -h

/Users/user/.pyenv/versions/miniconda2-4.3.30/bin/mafft: Cannot open -h.

 

------------------------------------------------------------------------------

  MAFFT v7.407 (2018/Jul/23)

  https://mafft.cbrc.jp/alignment/software/

  MBE 30:772-780 (2013), NAR 30:3059-3066 (2002)

------------------------------------------------------------------------------

High speed:

  % mafft in > out

  % mafft --retree 1 in > out (fast)

 

High accuracy (for <~200 sequences x <~2,000 aa/nt):

  % mafft --maxiterate 1000 --localpair  in > out (% linsi in > out is also ok)

  % mafft --maxiterate 1000 --genafpair  in > out (% einsi in > out)

  % mafft --maxiterate 1000 --globalpair in > out (% ginsi in > out)

 

If unsure which option to use:

  % mafft --auto in > out

 

--op # :         Gap opening penalty, default: 1.53

--ep # :         Offset (works like gap extension penalty), default: 0.0

--maxiterate # : Maximum number of iterative refinement, default: 0

--clustalout :   Output: clustal format, default: fasta

--reorder :      Outorder: aligned, default: input order

--quiet :        Do not report progress

--thread # :     Number of threads (if unsure, --thread -1)

 

実行方法

公式サイトから59のrRNAの配列のFASTAをダウンロードできる(リンク)。これを使ってみる。example 1のmulti fastaをダウンロード。

f:id:kazumaxneo:20190613194513j:plain

ダウンロードした配列を指定してautoモードでラン。

mafft --auto ex1.txt > output

マルチプルアライメント結果が出力される。

 

ユーザーと対話式でランもできる。

mafft

user$ mafft

 

---------------------------------------------------------------------

 

   MAFFT v7.305b (2016/Aug/16)

 

        Copyright (c) 2016 Kazutaka Katoh

        MBE 30:772-780 (2013), NAR 30:3059-3066 (2002)

        http://mafft.cbrc.jp/alignment/software/

---------------------------------------------------------------------

 

 

Input file? (fasta format)

ex1.txt

Output file?

@ out

Output format?

  1. Clustal format / Sorted

  2. Clustal format / Input order

  3. Fasta format   / Sorted

  4. Fasta format   / Input order

  5. Phylip format  / Sorted

  6. Phylip format  / Input order

@ 1

OK. arguments = --reorder

 

 

Strategy?

  1. --auto

  2. FFT-NS-1 (fast)

  3. FFT-NS-2 (default)

  4. G-INS-i  (accurate)

  5. L-INS-i  (accurate)

  6. E-INS-i  (accurate)

@ 1

OK. arguments = --auto --reorder

 

 

Additional arguments? (--ep # --op # --kappa # etc)

@

command=

"/usr/local/bin/mafft"  --auto --clustalout --reorder "ex1.txt" > "out"

OK?

@ [Y] y

指示に従って実行する。 

 

 

mafft webサービス

産業技術総合研究所https://mafft.cbrc.jp/alignment/server/ にアクセスする。

こちらではmafftを使ったマルチプルシーケンスアラインメント(MSA)の他に、MSAから各種方法による分子系統樹作成までほぼ自動で行える。

f:id:kazumaxneo:20190703165539j:plain

FASTAファイルをウィンドウ内にペーストするか、ファイルを選択からアップロードする。

  

ラン後、上のメニューボタンからMSAViewerに切り変えれば結果を視覚化できます。

f:id:kazumaxneo:20190613195345j:plain

viewerはjava webスタートとしてlocalでも実行できる。 

 

マルチプルシーケンスアラインメントをすでに実行済なら、.alnファイルを提供することで系統推定だけ行うこともできる。

Molecular phylogeny by the NJ / UPG methods

f:id:kazumaxneo:20200530121941p:plain

ツリーのみ描画

Rough clustering of Unaligned Sequences

 

追記

1、通常、アミノ酸配列は大文字で、塩基配列は小文字で出力される。

https://academic.oup.com/mbe/article/30/4/772/1073398

しかし何らかの理由で小文字と大文字を使い分けている場合、小文字は小文字のまま、大文字は大文字のまま、すなわち入力ファイルの状態で出力したい事がある。そのような時は--preservecaseオプションをつけてランする。この場合、入力ファイルが小文字なら小文字のまま、大文字は大文字のまま出力されるが(混ざっていても動作する)、一部の大文字を想定したMSAビューアではエラーになるので注意。

2、デフォルトでは入力配列と同じ順番で出力されるが、--reorderオプションを使うと配列の類似性によりソートして出力される。

 

引用

MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform.

Katoh, Misawa, Kuma and Miyata

Nucleic Acids Res. 30:3059-3066, 2002

 MAFFT version 5: improvement in accuracy of multiple sequence alignment.

Katoh, Kuma, Toh and Miyata

Nucleic Acids Res. 33:511-518, 2005

 PartTree: an algorithm to build an approximate tree from a large number of unaligned sequences.

Katoh and Toh

Bioinformatics 23:372-374, 2007

 

MAFFTを使ってマルチプルアラインメントを行う 統合TV(togotv)|生命科学系DB・ツール使い倒し系チャンネル

 

関連

コンセンサス配列出力

 

メモ

*Sierra環境でconfig errorが出たが、環境変数のリセット "unset MAFFT_BINARIES" を打つことで修復できた。