系統学的研究やゲノムワイドな選択調査などの分子進化研究は、しばしばシングルコピーオルソログ(SC-OG)の遺伝子ファミリーに依存している。トランスポーターや転写因子などいくつかの重要な遺伝子ファミリーに見られる現象であるが、1つ以上の種に複数のホモログを持つ大規模な遺伝子ファミリーは、その中に入れ子状に存在するSC-OGの同定や検索が困難であるため、しばしば無視される。この問題に対処し、分子進化研究で使用されるマーカーの数を増やすために、著者らはOrthoSNAPを開発した。OrthoSNAPは、系統的フレームワークを使用して、遺伝子ファミリーをSC-OGに分割し、種特異的なインパラログを除去するソフトウェアである。OrthoSNAPによって同定されたSC-OGは、枝をスナップするような分割と刈り込みの手順で同定されることから、SNAP-OGと呼んでいる。7つの真核生物の系統樹データセットで推定された415,129のオルソログ遺伝子群から、9,821のSC-OGを同定した。残りの405,308のオルソログ遺伝子群にOrthoSNAPを使用すると、さらに10,704のSNAP-OGを同定した。SNAP-OGとSC-OGを比較した結果、全ゲノム重複、重複と消失の複雑なパターン、各遺伝子が通常複数の転写産物を持つトランスクリプトームデータ、生命のツリーで論争がある枝を含む複雑なデータセットにおいても、両者の系統学的情報量は類似していることが明らかになった。 OrthoSNAPは、分子進化データマトリックスで使用されるマーカーの数を増やすのに有用である。
Documentation
https://jlsteenwyk.com/orthosnap/
インストール
https://github.com/JLSteenwyk/orthosnap
#conda(link)
mamba create -n OrthoSNAP python=3.12
conda activate OrthoSNAP
mamba install -c jlsteenwyk orthosnap -y
> orthosnap -h
_ _
| | | |
___ _ __| |_| |__ ___ ___ _ __ __ _ _ __
/ _ \| '__| __| '_ \ / _ \/ __| '_ \ / _` | '_ \
| (_) | | | |_| | | | (_) \__ \ | | | (_| | |_) |
\___/|_| \__|_| |_|\___/|___/_| |_|\__,_| .__/
| |
|_|
Version: 0.0.1
Citation: Steenwyk et al.
Usage: orthosnap <input> [optional arguments]
required arguments:
-t, --tree <newick tree file>
input tree file in newick format
input sequence file in fasta format
optional arguments:
-s, --support <support>
support threshold for bipartition collapsing
default: 80
-o, --occupancy <occupancy>
occupancy threshold for minimum number of tips in orthologous subgroup
default: 50 percent of total number of taxa
-------------------------------------
| Detailed explanation of arguments |
-------------------------------------
-t, --tree <newick tree file>
- input tree file in newick format
- taxa name and gene name should be separate by a "|" symbol
For example, "gene_a" from "species_a" should appear in the
tree as "species_a|gene_a", and "gene_b" from "species_a"
should appear in the tree as "species_a|gene_b", and so
on and so forth.
- input sequence file in fasta format
- taxa name and gene name should be formatted the same as in
the tree file. Thus, "gene_a" from "species_a" should appear
in the tree as "species_a|gene_a" and so on and so forth.
-s, --support <support>
- support threshold for bipartition collapsing
- all bipartitions will values less than the specified value
will be collapsed. For example, if the support threshold
value is 80, all bipartitions with 79 or less support
will be collapsed.
- default value is 80 and is set for ultrafast bootstrap
approximations. If bipartitions support was evaluated
using standard bootstrap, a common threshold to use is 70.
-o, --occupancy <occupancy>
- occupancy threshold for minimum number of tips in orthologous
subgroup.
- default value is 50 percent of the total number of taxa
- values are rounded to the nearest integer. For example,
if there are 15 taxa, the occupancy threshold will be 8.
(OrthoSNAP)
実行方法
通常、遺伝子のシングルコピーオーソロググループのみが系統学的解析に使用されるが、遺伝子のオルソロググループが取り出された後、シングルコピーオルソロググループの数は全てのオルソロググループに比べて比較的少ない。OrthoSNAPは、マルチコピーオーソログ遺伝子グループ中のシングルコピーオーソログ遺伝子のサブグループを同定する。
アラインメントされていないFASTA形式の配列、オルソログ遺伝子群のnewick形式の系統樹ファイルを指定する。
orthosnap -f orthogroup.faa -t orthogroup.tre
- -f input sequence file in fasta format. taxa name and gene name should be formatted the same as in the tree file. Thus, "gene_a" from "species_a" should appear in the tree as "species_a|gene_a" and so on and so forth.
- -t input tree file in newick format taxa name and gene name should be separate by a "|" symbol or example, "gene_a" from "species_a" should appear in the tree as "species_a|gene_a", and "gene_b" from "species_a" should appear in the tree as "species_a|gene_b", and so on and so forth.
出力はシングルコピーオーソログ遺伝子のサブグループのmulti-FASTAファイル。
https://jlsteenwyk.com/orthosnap/tutorial/index.html
wget https://jlsteenwyk.com/orthosnap/_downloads/fef75cd0c5c7e0001986340a4ec0c416/dataset.tar.gz
tar -zxvf dataset.tar.gz
cd dataset/
42配列含まれる。
実行する。
orthosnap -f fake_orthologous_group_of_genes.faa -t fake_orthologous_group_of_genes_tree.tre
出力
それぞれのサブグループは、fake_orthologous_group_of_genes.faa.orthosnap.N.faというタイトルの異なるファイルに書き込まれ、合計5つの遺伝子の単一コピーオーソログサブグループが同定された。”各サブグループは様々な分子進化解析(例えば、系統学、dN/dSなど)に使用できる。(マニュアルより)”
マニュアルより
- 種特異的なインパラログとパラログは、PhyloTreePrunerで説明されているアプローチに従って刈り込まれる。デフォルトの閾値は80で、-s/--support引数で変更できる。
- 種特異的なインパラログの刈り込みでは、最も長いインパラログを残すのがトランスクリプトーム解析の標準的なやり方である。しかし、これは必ずしもベストとは限らないため、OrthoSNAPでは-ip /--inparalog_to_keepパラメーターを用いて、どのインパラログを残すかを柔軟に選択することができる。具体的には、3つ以上のインパラログがある場合、最長(デフォルト;longest_seq_len)、最短長(shortest_seq_len)、中央値(median_seq_len)を選択できる。また、3つ以上のインパラログの場合、最長枝長(longest_branch_len)、最短枝長(shortest_branch_len)、または中央枝長(median_branch_len)というツリーベースのメトリックスに基づいて、どのインパラログを残すかを選択することもできる。
引用
OrthoSNAP: A tree splitting and pruning algorithm for retrieving single-copy orthologs from gene family trees
Jacob L Steenwyk, Dayna C Goltz, Thomas J Buida 3rd, Yuanning Li, Xing-Xing Shen, Antonis Rokas
PLoS Biol. 2022 Oct 13;20(10):e3001827
コメント
論文を集中して書くために2か月ほど休ませていただいておりましたが、少し時間が戻ってきたので再開しました。またよろしくお願い致します。