macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

巨大なプロテインファミリーのマルチプルアライメントを行うFAMSA

 

FAMSAは大規模タンパク質ファミリーのマルチプルアライメントを可能にするアルゴリズムを持つ方法論。CPUの並列化に対応しており、数千-数十万のタンパク質ファミリーの高速なマルチプルアライメントが可能になっている。

論文中では、オーサーが定義したおよそ41万5千のアミノ酸配列のベンチマークで、clustal-omegaやMAFFETでは、128GBのメモリを積んだマシンでも24時間で終了しなかったのが、8GBのメモリ使用量で2時間で処理できたと記載されている。

 

公式サイト

http://sun.aei.polsl.pl/REFRESH/index.php?page=projects&project=famsa&subpage=about

 

インストール

version1.2でmacに対応している。

Github

https://github.com/refresh-bio/FAMSA

git clone https://github.com/refresh-bio/FAMSA.git
cd FAMSA/
make

FAMSAをパスの通ったディレクトリに移動させる。

 

ラン

farmsa input.faa output.faa

 

 

 

 

引用

FAMSA: Fast and accurate multiple sequence alignment of huge protein families

Sebastian Deorowicz, Agnieszka Debudaj-Grabysz & Adam Gudyś

Scientific Reports 6, Article number: 33964 (2016)