FAMSAは大規模タンパク質ファミリーのマルチプルアライメントを可能にするアルゴリズムを持つ方法論。CPUの並列化に対応しており、数千-数十万のタンパク質ファミリーの高速なマルチプルアライメントが可能になっている。
論文中では、オーサーが定義したおよそ41万5千のアミノ酸配列のベンチマークで、clustal-omegaやMAFFETでは、128GBのメモリを積んだマシンでも24時間で終了しなかったのが、8GBのメモリ使用量で2時間で処理できたと記載されている。
公式サイト
http://sun.aei.polsl.pl/REFRESH/index.php?page=projects&project=famsa&subpage=about
インストール
version1.2でmacに対応している。
git clone https://github.com/refresh-bio/FAMSA.git
cd FAMSA/
make
FAMSAをパスの通ったディレクトリに移動させる。
実行方法
farmsa input.faa output.faa
引用
FAMSA: Fast and accurate multiple sequence alignment of huge protein families
Sebastian Deorowicz, Agnieszka Debudaj-Grabysz & Adam Gudyś
Sci Rep. 2016 Sep 27;6:33964.