macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

種名を指定するだけで自動で系統推定を実行する PhySpeTree

2020 7/6 追記

 

 系統樹は進化関係の推論に広く用いられている。既存のソフトウェアやアルゴリズムでは、主に系統樹の推論が中心となっている。しかし、非常に大規模な配列の処理や、複数のソフトウェアを接続するためのconfigureファイルの作成など、中間的なステップへの注目度は低い。種の数が多い場合には、この中間ステップがボトルネックとなり、樹形構築の効率に大きな影響を与える可能性がある。
 ここでは、細菌、古細菌、真核生物にまたがる系統樹の再構築を容易にするために、PhySpeTreeと名付けられた使いやすいパイプラインを紹介する。ユーザーは種名の略語を入力するだけで、PhySpeTreeは異なるソフトウェア用の複雑な設定ファイルを準備し、ゲノムデータを自動的にダウンロードし、配列をクリーンアップし、ツリーを構築する。PhySpeTreeでは、高度なオプションを調整することで、配列のアラインメントやツリー構築などの重要なステップを実行することができる。PhySpeTree は、高度に保存されたタンパク質とリボソーム のスモールサブユニットのRNA 配列を連結したものをベースにした 2 つの並列パイプラインをそれぞれ提供する。新種の挿入、可視化構成の生成、ツリーの結合などのアクセサリモジュールは、PhySpeTreeと一緒に配布されている。
 PhySpeTreeは、アクセサリモジュールと組み合わせることで、系統樹の再構築を大幅に簡素化する。PhySpeTreeは、最新のオペレーティングシステムLinuxmacOSWindows)上で動作するPythonで実装されている。ソースコードは、詳細なドキュメント(https://github.com/yangfangs/physpetools)とともに自由に入手できる。

 

 

f:id:kazumaxneo:20200703233821p:plain

PhySpeTree workflow Githubより転載

 

https://twitter.com/search?q=PhySpeTree&src=typed_query

 

インストール

GLIBC_2.29が要求されたのでubuntu19.10の仮想環境でテストした(docker使用)。

本体 Github

pip install PhySpeTree

 > PhySpeTree -h

$ PhySpeTree -h

usage: PhySpeTree [-h] {autobuild,combine,iview,build,check} ...

 

          -------------------------------------------------------------------------------------

                      PhySpeTree (0.3.9) - Reconstruct Phylogenetic species Tree

 

          Citation:

                  PhySpeTree: automatically reconstructing phylogenetic species tree (submitted)

 

          --------------------------------------------------------------------------------------

          

 

optional arguments:

  -h, --help            show this help message and exit

 

RCONSTRUCT PHYLOGENETIC TREE:

  {autobuild,combine,iview,build,check}

    autobuild           Auto reconstruct phylogenetic tree

    combine             Combine phylogenetic tree

    iview               View tree by iTol

    build               Extend phylogenetic tree with new species

    check               Check organism database and prepare for extend tree

                        files

PhySpeTree autobuild -h

# PhySpeTree autobuild -h

usage: PhySpeTree autobuild [-h] [-i [SPENAMES]] [-o OUTDATA] [-t THREAD]

                            [-e EXTENDDATA] [--hcp] [--ehcp] [--srna]

                            [--esrna] [-db DB] [--muscle]

                            [--muscle_p MUSCLE_PARAMETER] [--clustalw]

                            [--clustalw_p CLUSTALW_PARAMETER] [--mafft]

                            [--mafft_p MAFFT_PARAMETER] [--gblocks]

                            [--gblocks_p GBLOCKS_PARAMETER] [--trimal]

                            [--trimal_p TRIMAL_PARAMETER] [--raxml]

                            [--raxml_p RAXML_PARAMETER] [--fasttree]

                            [--fasttree_p FASTTREE_PARAMETER] [--iqtree]

                            [--iqtree_p IQTREE_PARAMETER]

 

optional arguments:

  -h, --help            show this help message and exit

 

AUTOBUILD OPTIONS:

  -i [SPENAMES]         Input a TXT file contain the species names

                        (abbreviated names) are same with KEGG species

                        abbreviation.

  -o OUTDATA            A directory include output data (tree files). The

                        default name is Outdata.

  -t THREAD             Specify the number of processing threads (CPUs) to

                        reconstruct phylogenetic tree. The default is 1.

  -e EXTENDDATA         The extended data should be FASTA format to extend

                        phylogenetic tree by --ehcp or --esrna option.

  --hcp                 Specify the hcp (highly conserved protein) method to

                        reconstruct phylogenetic tree. The default method is

                        hcp.

  --ehcp                The ehcp mode is use highly conserved proteins with

                        extend highly conserved protein (users provide) to

                        reconstruct phylogenetic tree.

  --srna                The srna (SSU rRNA) method is use SSU rRNA data to

                        reconstruct phylogenetic tree.

  --esrna               The esrna mode is use SSU RNA sequence with extend SSU

                        RNA sequence (users provide) to reconstruct

                        phylogenetic tree.

  -db DB                The absolute path for local database.

 

ADVANCE OPTIONS:

  --muscle              Multiple sequence alignment by muscle. The default

                        multiple sequence alignment software is Muscle.

  --muscle_p MUSCLE_PARAMETER

                        Set Muscle advance parameters. The default is -maxiter

                        100.

  --clustalw            Multiple sequence alignment by clustalw2.

  --clustalw_p CLUSTALW_PARAMETER

                        Set clustalw2 advance parameters. Here use clustalw

                        default parameters.

  --mafft               Multiple sequence alignment by mafft.

  --mafft_p MAFFT_PARAMETER

                        Set mafft advance parameters. Here use mafft default

                        parameters.

  --gblocks             Trim by Gblocks.

  --gblocks_p GBLOCKS_PARAMETER

                        Set Gblocks advance parameters.

  --trimal              Trim by trimal.

  --trimal_p TRIMAL_PARAMETER

                        Set trimal advance parameters.

  --raxml               Reconstruct phylogenetic tree by RAxML. The default

                        build tree software is RAxML.

  --raxml_p RAXML_PARAMETER

                        Set RAxML advance parameters.

  --fasttree            Reconstruct phylogenetic tree by FastTree.

  --fasttree_p FASTTREE_PARAMETER

                        Set FastTree advance parameters.

  --iqtree              Reconstruct phylogenetic tree by iqtree.

  --iqtree_p IQTREE_PARAMETER

                        Set iqtree advance parameters.

 

 

実行方法

  • autobuild -  自動で配列をデータベースからダウンロードして系統推定

種名の略称を指定したテキストファイル()を指定する。自動で高度に保存されたタンパク質セットがダウンロード(*1)され、系統推定が実行される。SSU rRNAに切り替えるには”--srna”フラグを立てる。

PhySpeTree autobuild -i organism_example_list.txt -T 20 --hcp
  • --hcp     Specify the hcp (highly conserved protein) method to  reconstruct phylogenetic tree. The default method is hcp.
  • --srna    The srna (SSU rRNA) method is use SSU rRNA data to reconstruct phylogenetic tree. 

出力

f:id:kazumaxneo:20200704005823p:plain

 iTOL(紹介)に読み込んだ。

f:id:kazumaxneo:20200705133824p:plain

 

または詳細な設定を指定する、、系統推定方法、置換モデルなど詳細にわたって指定可能。

SSU rRNAの系統推定。多重整列はmuscleを指定(mafft/clustalw)、アラインメントのトリミングはGblocks(trimAI)、系統推定はRAxML(fasttree/iqtree)、RAxMLの置換モデルなどの詳細パラメータも指定(RAxMLのmanual)。

PhySpeTree autobuild -i organism_example_list.txt -o test-t 12 --srna --raxml --raxml_p ' -f a -m GTRGAMMA -p 12345 -x 12345 -# 100 -n T1'
  • --srna    The srna (SSU rRNA) method is use SSU rRNA data to reconstruct phylogenetic tree
  • -o      A directory include output data (tree files). The  default name is Outdata.
  • -t      Specify the number of processing threads (CPUs) to reconstruct phylogenetic tree. The default is 1.
  • --muscle   Multiple sequence alignment by muscle. The default multiple sequence alignment software is Muscle.
  • --raxml      Reconstruct phylogenetic tree by RAxML. The default build tree software is RAxML.
  • --raxml_p    Set RAxML advance parameters.

 

他に複数のツリーファイルをマージしたり、iTOLで閲覧する時のアノテーションファイルを先生するコマンドなどがある。詳細はGIthubで確認して下さい。

引用

PhySpeTree: an automated pipeline for reconstructing phylogenetic species trees

Yang Fang, Chengcheng Liu, Jiangyi Lin, Xufeng Li, Kambiz N. Alavian, Yi Yang, Yulong Niu
BMC Evolutionary Biology volume 19, Article number: 219 (2019)

 

関連


*1

使用されるタンパク質配列については論文とGithub READMEを参照(一番下)