macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アンサンブルブートストラップにより、系統樹の信頼性をより正確に推定する MUSCLE v5

 

 系統樹の信頼性は、多くの場合、Felsensteinブートストラップ法を用いてマルチプルシーケンスアラインメント(MSA)から推定される。しかし、この方法では、MSAの系統的な誤差を考慮していないため、推定される系統樹に大きな偏りが生じる可能性がある。ここでは、MSAアンサンブルブートストラップについて説明する。これは、ギャップペナルティや置換スコアなどのパラメータを変化させることで、MSAの複製セットを生成する新しい手順である。このようなアンサンブルは、MSA間の典型的な距離がエラーレートに匹敵する場合、diagnosticと呼ばれる。MSAから得られた予測(例:単系統のクレード)の信頼度は、予測が再現されたアンサンブルの割合で表される。この手法は,隠れマルコフモデル(HMM)に基づくProbconsアルゴリズムを改良することで,MUSCLEに実装されている。アンサンブルは,HMMのパラメータを変化させ,ガイドツリーを順列化することで生成される。この方法で生成されたアンサンブルは,Balibase ベンチマークで診断可能であることが示された。大規模なデータセットへのスケーリングを可能にするために、divide-and-conquerヒューリスティックスが導入されている。新しいベンチマーク(Balifam)は、1,000以上のタンパク質を含む36セットで構成されている。Balifamにおいて、MUSCLEによって生成されたアンサンブルは、平均59%のカラムを正しく配列することが示された。これは、Clustal-omega (52% correct)よりも13%良く、MAFFT (47% correct)よりも26%良い。アンサンブルブートストラップを、以前に発表されたRNAウイルスのツリーに適用したところ、Ribovirusの門の分岐順序について報告された高いFelsensteinブートストラップ信頼度は、系統的なMSAエラーのアーチファクトであることが示された。

 

 

インストール

レポジトリからlinux向けバイナリをダウンロードして動作確認した。

Github

#bioconda (link)
conda install -c bioconda -y muscle

muscle -h

muscle 5.0.1278_linux64 264Gb RAM, 128 cores

(C) Copyright 2004-2021 Robert C. Edgar.

https://drive5.com

 

Amino acid sequences, runs MPC or Super5 algorithm:

muscle -mpc seqs.fa -out aln.fa

muscle -super5 seqs.fa -out aln.fa

 

Nucleotide or amino acid sequences, runs muscle v3 algorithm:

muscle -in seqs.fa -out aln.fa [-maxiters 2]

 

Input is FASTA, output is aligned FASTA.

 

For amino acid sequences, use MPC for up to around 500 sequences, for larger

sets, use Super5. The muscle v3 algorithm is less accurate, not recommended.

 

For nucleotide sequences, use -maxiters 2 if the default is too slow, which

typically happens with a few hundred sequences.

 

mpc and super5:

-perturb n Integer seed for randomized HMM perturbations (default 0).

To make an ensemble, run several times with different seeds.

Zero (default) disables perturbing HMM parameters.

-perm type Guide tree permutation none, abc, acb, or bca (default none).

-hmmin filename Read HMM parameters from file.

-hmmout filename Save HMM parameters to file.

-consiters n Nr consistency iterations (default 2).

-refineiters n Nr refinement iterations (default 100).

-threads n Use n threads. Default is min(number of CPU cores, 20).

 

super5:

-maxcoarse n Max size for coarse clusters (default 500).

-paircount n Max pairs for profile alignment (default 2000).

 

muscle v3:

-maxiters n Max iterations. 2 is progressive, >2 does refinement.

Default is continue until convergence.

 

All algorithms:

-quiet Turn off progress messages.

-log filename Write time, memory use and progress messages to file.

 

 

実行方法

multi-fastaを指定する。

#runs MPC or Super5 algorithm
#MPC (up to around 500 sequences)
muscle -mpc seqs.fa -out aln.fa

#Super5 (for larger sets)
muscle -super5 seqs.fa -out aln.fa

#muscle v3 algorithm (The muscle v3 algorithm is less accurate, not recommended.)
muscle -in seqs.fa -out output.aln

 

 

引用

MUSCLE v5 enables improved estimates of phylogenetic tree confidence by ensemble bootstrapping
Robert C. Edgar

BioRxiv, Posted June 21, 2021.

 

関連