macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

MEGA12

 

Molecular Evolutionary Genetics Analysis (MEGA12)ソフトウェアの第12版を紹介する。この最新バージョンでは、最適な置換モデルの選択と、最尤法(ML法)を用いた系統のブートストラップ検定に必要な計算時間を短縮することで、多くの重要な改良が加えられている。これらの改良は、不必要と思われる計算を最小化するヒューリスティックを実装することによって達成された。経験的データセットとシミュレーションデータセットの解析により、結果の精度を損なうことなく、これらのヒューリスティックを使用することで大幅な時間短縮が可能であることが示された。MEGA12はまた、系統樹解析によって推定された進化樹において、脆弱なクレードと関連する配列を同定するための進化的スパース学習アプローチをリンクしている。さらに、このバージョンでは、ML解析のためのきめ細かい並列化、高解像度モニターのサポート、および強化されたツリーエクスプローラーが含まれている。MEGA12はhttps://www.megasoftware.net からダウンロードできる。

 

Documentation

https://www.megasoftware.net/docs

チュートリアル

https://www.megasoftware.net/videos

Example Data

https://www.megasoftware.net/examples

FAQ

https://www.megasoftware.net/faq

 

インストール

プラットフォームを選択する。GUICUIかも指定する。ここではGUI版を選択。

 

MEGA12(現在β)を選択する(デフォルトは安定板の11)。

同意してインストール

 

実行方法

新しい機能に注目して簡単に見ていきます。

 

起動したところ。

 

インターフェースは3年前の11とほぼ変わらない

 

系統推定の前に最適なモデルを推論する。

MODELSボタンのFind best DNA/Protein Modelを選択

 

Default設定で全てのポジションを対象に実行、8スレッド指定(スレッドごとに別のモデルの計算が行なわれる)

しばらく時間がかかる。並行して他の作業をすることも可能

 

出力された。BICとAICc、対数尤度(lnL)、その他のモデルパラメータがモデルの組み合わせ毎に出力される。

中略

”Abbreviations: LG: Le and Gascuel; JTT: Jones-Taylor-Thornton; rtREV: General Reverse Transcriptase; cpREV: General Reversible Chloroplast; mtREV24: General Reversible Mitochondrial; WAG: Whelan and Goldman.”

 

パネルを閉じると結果は失われるので注意する(saveするか聞かれる)。邪魔ならsaveして閉じるか最小化ボタンで縮小しておく。

 

モデル探索を高速に実行するにはFiltered機能を使う(論文のデータでは10倍近く時間短縮されている)。

 

”塩基の場合、まず6つの塩基モデル: GTR、HKY、TN93、T92、K2P、JCについてMLモデルの適合度を評価することから始まる。MEGAはモデルの適合度を評価するためにベイズ情報量基準(BIC)と補正赤池情報量基準(AICc)を使用する。これらの基準は使用されているMSAとその関連パラメータに対する各モデルの対数尤度適合度に基づいて計算される。最も低いBIC値(BICmin)を持つベースモデルが最初に選択され、AICcminがこの同じモデルのAICc値とされる。BIC値またはAICc値が、それぞれBICminまたはAICcminの5ポイントを超えない基本モデルは、さらに検討するための最適モデルの可能性があるとみなされる。AICcまたはBICがAICcminまたはBICminの5ポイントを超えるモデルは、最適でないとみなされ、これらの最適でない基本モデルから導かれる他のモデルの組み合わせは、それ以上テストされない。そして、残りの基本モデルと+I、+G(4つのカテゴリーを持つ)、および+I+Gの両方の組み合わせのML分析が、最終選択のためのさまざまな情報基準を計算するために実施される。最も低いBICを持つモデルが、置換の最良適合モデルとして決定される”(論文より)

 

使用したデモデータでは、Fullだと50近いモデルの組み合わせがテストされたが、Filterだと15に限定された。

アミノ酸MSAだと、まず8つの一次置換モデルすべてについてBICとAICcを決定し、BICとAICcの値がそれぞれBICminまたはAICcminより5以上大きいすべてのモデルを排除され、計算が効率化される。

 

PHYLOGENY

クロロプラストのデモMSAを使用する。

 

ここでは最尤推定を選択、

 

Adaptive Bootstrappingを選択。これはMEGA12の新機能の1つで、ブートストラップ解析に最適な複製数を自動的に決定する。Adaptive Bootstrappingは、研究者にとって最大の関心事である高いBS値が、少ない複製数から高い精度(すなわち低いSE)で推定できるという事実に基づいている。このオプションは、距離ベース(neighbor-joining [NJ]など)やMP法を用いて推定された系統でも利用可能である(論文より)。

”ブートストラップ法では、再サンプリングされたMSAのサイト数が元のMSAのサイト数と同じになるまで、サイトを置換してサンプリングすることにより、多数の再サンプリングされたMSAが生成される。これらの再標本化MSAから、系統樹推定アプローチ(MLアプローチなど)を用いて系統樹を推定する。再サンプリングされたMSAから得られた系統樹において、配列のクラスターが出現する回数の割合が、そのブートストラップサポート(BS)です。高いBS値は、推定されたクレードが統計的にサポートされていることを示す(Felsenstein 1985)。”(論文より)

 

置換モデルは、適合モデルの尤度値が最大だったcpREV+G+I+Fを選択(cpREV:General Reversible Chloroplast;)サイト間の進化速度は均一ではなく、サイトの一部は進化的に不変(+I)と仮定した離散ガンマ分布(+G)を用いてモデル化する(G+I)。これは現実的な進化モデルと思われる。Fは"empirical frequencies "で実際のデータから塩基やアミノ酸の頻度を取り入れて置換モデルを補正する(論文より)。したがってより使用されたデータに適合する可能性が高い。

 

出力例

 

上のタブからBootstrap consensus treeに切り替え可能。枝長がないcladogramである点に注意。

 

Newickで出力

新しいウィンドウに書き出されるのでsave asで保存する。

 

論文より

  • 内部ノード、または祖先枝の信頼性を評価するスパース学習アプローチであるDrPhylo が組み込まれている。ノードを右クリックして実行する。
  • ML系統樹検索のための初期樹を自動的に生成するオプションがMEGA12で変更された。デフォルトのオプションを使用すると、MEGA12はまずNJ treeとMP treeの2つの初期候補treeを生成する。10本のMP treeの中から、treeの長さが最小のものが選ばれる。その後、このMP treeとNJ treeについて、1パラメータ置換モデルを用いて対数尤度を計算する。対数尤度の優れたtreeが、ML treeを見つけるための初期treeして選択される。
  • GUIは使いやすさを改善するために大幅な更新が行われた。
  • すべてのデータと結果のエクスプローラWindowsメニューが追加され、ユーザーは現在アクティブな他のウィンドウに素早く移動することができるように修正された。また、解析の詳細と計算されたパラメータ、データの統計情報を追加し、計算の進捗状況をより分かりやすく報告するようになった。
  • 高解像度モニターへの対応。モニターの解像度に基づいてコンポーネントのサイズと配置が自動調整されるようになった。

 

引用

MEGA12: Molecular Evolutionary Genetic Analysis Version 12 for Adaptive and Green Computing

Sudhir Kumar, Glen Stecher, Michael Suleski, Maxwell Sanderford, Sudip Sharma, Koichiro Tamura

Mol Biol Evol. 2024 Dec 21;41(12):msae263.

 

関連