2020 7/6 追記
系統樹は進化関係の推論に広く用いられている。既存のソフトウェアやアルゴリズムでは、主に系統樹の推論が中心となっている。しかし、非常に大規模な配列の処理や、複数のソフトウェアを接続するためのconfigureファイルの作成など、中間的なステップへの注目度は低い。種の数が多い場合には、この中間ステップがボトルネックとなり、樹形構築の効率に大きな影響を与える可能性がある。
ここでは、細菌、古細菌、真核生物にまたがる系統樹の再構築を容易にするために、PhySpeTreeと名付けられた使いやすいパイプラインを紹介する。ユーザーは種名の略語を入力するだけで、PhySpeTreeは異なるソフトウェア用の複雑な設定ファイルを準備し、ゲノムデータを自動的にダウンロードし、配列をクリーンアップし、ツリーを構築する。PhySpeTreeでは、高度なオプションを調整することで、配列のアラインメントやツリー構築などの重要なステップを実行することができる。PhySpeTree は、高度に保存されたタンパク質とリボソーム のスモールサブユニットのRNA 配列を連結したものをベースにした 2 つの並列パイプラインをそれぞれ提供する。新種の挿入、可視化構成の生成、ツリーの結合などのアクセサリモジュールは、PhySpeTreeと一緒に配布されている。
PhySpeTreeは、アクセサリモジュールと組み合わせることで、系統樹の再構築を大幅に簡素化する。PhySpeTreeは、最新のオペレーティングシステム(Linux、macOS、Windows)上で動作するPythonで実装されている。ソースコードは、詳細なドキュメント(https://github.com/yangfangs/physpetools)とともに自由に入手できる。
PhySpeTree workflow Githubより転載
https://twitter.com/search?q=PhySpeTree&src=typed_query
インストール
GLIBC_2.29が要求されたのでubuntu19.10の仮想環境でテストした(docker使用)。
本体 Github
pip install PhySpeTree
> PhySpeTree -h
$ PhySpeTree -h
usage: PhySpeTree [-h] {autobuild,combine,iview,build,check} ...
-------------------------------------------------------------------------------------
PhySpeTree (0.3.9) - Reconstruct Phylogenetic species Tree
Citation:
PhySpeTree: automatically reconstructing phylogenetic species tree (submitted)
--------------------------------------------------------------------------------------
optional arguments:
-h, --help show this help message and exit
RCONSTRUCT PHYLOGENETIC TREE:
{autobuild,combine,iview,build,check}
autobuild Auto reconstruct phylogenetic tree
combine Combine phylogenetic tree
iview View tree by iTol
build Extend phylogenetic tree with new species
check Check organism database and prepare for extend tree
files
> PhySpeTree autobuild -h
# PhySpeTree autobuild -h
usage: PhySpeTree autobuild [-h] [-i [SPENAMES]] [-o OUTDATA] [-t THREAD]
[-e EXTENDDATA] [--hcp] [--ehcp] [--srna]
[--esrna] [-db DB] [--muscle]
[--muscle_p MUSCLE_PARAMETER] [--clustalw]
[--clustalw_p CLUSTALW_PARAMETER] [--mafft]
[--mafft_p MAFFT_PARAMETER] [--gblocks]
[--gblocks_p GBLOCKS_PARAMETER] [--trimal]
[--trimal_p TRIMAL_PARAMETER] [--raxml]
[--raxml_p RAXML_PARAMETER] [--fasttree]
[--fasttree_p FASTTREE_PARAMETER] [--iqtree]
[--iqtree_p IQTREE_PARAMETER]
optional arguments:
-h, --help show this help message and exit
AUTOBUILD OPTIONS:
-i [SPENAMES] Input a TXT file contain the species names
(abbreviated names) are same with KEGG species
abbreviation.
-o OUTDATA A directory include output data (tree files). The
default name is Outdata.
-t THREAD Specify the number of processing threads (CPUs) to
reconstruct phylogenetic tree. The default is 1.
-e EXTENDDATA The extended data should be FASTA format to extend
phylogenetic tree by --ehcp or --esrna option.
--hcp Specify the hcp (highly conserved protein) method to
reconstruct phylogenetic tree. The default method is
hcp.
--ehcp The ehcp mode is use highly conserved proteins with
extend highly conserved protein (users provide) to
reconstruct phylogenetic tree.
--srna The srna (SSU rRNA) method is use SSU rRNA data to
reconstruct phylogenetic tree.
--esrna The esrna mode is use SSU RNA sequence with extend SSU
RNA sequence (users provide) to reconstruct
phylogenetic tree.
-db DB The absolute path for local database.
ADVANCE OPTIONS:
--muscle Multiple sequence alignment by muscle. The default
multiple sequence alignment software is Muscle.
--muscle_p MUSCLE_PARAMETER
Set Muscle advance parameters. The default is -maxiter
100.
--clustalw Multiple sequence alignment by clustalw2.
--clustalw_p CLUSTALW_PARAMETER
Set clustalw2 advance parameters. Here use clustalw
default parameters.
--mafft Multiple sequence alignment by mafft.
Set mafft advance parameters. Here use mafft default
parameters.
--gblocks Trim by Gblocks.
--gblocks_p GBLOCKS_PARAMETER
Set Gblocks advance parameters.
--trimal Trim by trimal.
--trimal_p TRIMAL_PARAMETER
Set trimal advance parameters.
--raxml Reconstruct phylogenetic tree by RAxML. The default
build tree software is RAxML.
--raxml_p RAXML_PARAMETER
Set RAxML advance parameters.
--fasttree Reconstruct phylogenetic tree by FastTree.
--fasttree_p FASTTREE_PARAMETER
Set FastTree advance parameters.
--iqtree Reconstruct phylogenetic tree by iqtree.
--iqtree_p IQTREE_PARAMETER
Set iqtree advance parameters.
実行方法
- autobuild - 自動で配列をデータベースからダウンロードして系統推定
種名の略称を指定したテキストファイル(例)を指定する。自動で高度に保存されたタンパク質セットがダウンロード(*1)され、系統推定が実行される。SSU rRNAに切り替えるには”--srna”フラグを立てる。
PhySpeTree autobuild -i organism_example_list.txt -T 20 --hcp
- --hcp Specify the hcp (highly conserved protein) method to reconstruct phylogenetic tree. The default method is hcp.
- --srna The srna (SSU rRNA) method is use SSU rRNA data to reconstruct phylogenetic tree.
出力
iTOL(紹介)に読み込んだ。
または詳細な設定を指定する、、系統推定方法、置換モデルなど詳細にわたって指定可能。
SSU rRNAの系統推定。多重整列はmuscleを指定(mafft/clustalw)、アラインメントのトリミングはGblocks(trimAI)、系統推定はRAxML(fasttree/iqtree)、RAxMLの置換モデルなどの詳細パラメータも指定(RAxMLのmanual)。
PhySpeTree autobuild -i organism_example_list.txt -o test-t 12 --srna --raxml --raxml_p ' -f a -m GTRGAMMA -p 12345 -x 12345 -# 100 -n T1'
- --srna The srna (SSU rRNA) method is use SSU rRNA data to reconstruct phylogenetic tree
- -o A directory include output data (tree files). The default name is Outdata.
- -t Specify the number of processing threads (CPUs) to reconstruct phylogenetic tree. The default is 1.
- --muscle Multiple sequence alignment by muscle. The default multiple sequence alignment software is Muscle.
- --raxml Reconstruct phylogenetic tree by RAxML. The default build tree software is RAxML.
- --raxml_p Set RAxML advance parameters.
他に複数のツリーファイルをマージしたり、iTOLで閲覧する時のアノテーションファイルを先生するコマンドなどがある。詳細はGIthubで確認して下さい。
引用
PhySpeTree: an automated pipeline for reconstructing phylogenetic species trees
Yang Fang, Chengcheng Liu, Jiangyi Lin, Xufeng Li, Kambiz N. Alavian, Yi Yang, Yulong Niu
BMC Evolutionary Biology volume 19, Article number: 219 (2019)
関連
*1
使用されるタンパク質配列については論文とGithub READMEを参照(一番下)