原核生物および真核生物のパンゲノムのアクセサリー遺伝子は、遺伝子水平伝播、loss of gene、および選択の影響により蓄積する。 Coinfinderは、パンゲノム内の相同な遺伝子(遺伝子ファミリー)のセットが偶然に予想されるよりも頻繁に相互に関連または解離するかどうかを評価するソフトウェアプログラムである。 Coinfinderは、ユーザーが提供する系統樹を使用して、各アクセサリー遺伝子の系統依存性(系統発生分布)を評価する。これにより、Coinfinderは、偶然同じクレードに出現したために存在しない同時発生の遺伝子ペアに集中できる。むしろ、それらは系統発生全体で予想されるよりも頻繁に一緒に表示される傾向がある。 CoinfinderはC++、Python3およびRで実装されており、GNUライセンスの下でhttps://github.com/fwhelan/coinfinderから無料で入手できる。
インストール
依存
- Cmake3.6 or greater
- Python3.6 or greater
- Boost1.66 or greater
- OpenMP
- gcc 5 or greater
- R libraries: caper, phytools, getopt, igraph, dplyr, cowplot, data.table, ggraph, flock, future
- Bionconductor R library: ggtree
本体 Github
#bioconda (link)
mamba create -n coinfinder-env -y
conda activate coinfinder-env
mamba install -c conda-forge -c bioconda -c defaults coinfinder -y
> coinfinder -h
$ coinfinder -h
./confinder [OPTIONS]
File input- specify either:
-i or --input The path to the gene_presence_absence.csv output from Roary
-or-
The path of the Alpha-to-Beta file with (alpha)(TAB)(beta)
-I or --inputroary Set if -i is in the gene_presence_absence.csv format from Roary
-p or --phylogeny Phylogeny of Betas in Newick format (required)
Max mode (mandatory for coincidence analysis):
-a or --associate Overlap; identify groups that tend to associate/co-occur (default).
-d or --dissociate Separation; identify groups that tend to dissociate/avoid.
Significance- specify:
-L or --level Specify the significnace level cutoff (default: 0.05)
Significance correction- specify:
-m or --bonferroni Bonferroni correction multiple correction (recommended & default)
-n or --nocorrection No correction, use value as-is
-c or --fraction (Connectivity analysis only) Use fraction rather than p-value
Alternative hypothesis- specify:
-g or --greater Greater (recommended & default)
-l or --less Less
-t or --twotailed Two-tailed
Miscellaneous:
-x or --num_cores The number of cores to use (default: 2)
-v or --verbose Verbose output.
-r or --filter Permit filtering of saturated and low-abundance data.
-U or --upfilthreshold Upper filter threshold for high-abundance data filtering (default: 1.0 i.e. any alpha in >=100/% of betas.
-F or --filthreshold Threshold for low-abundance data filtering (default: 0.05 i.e. any alpha in <=5% of betas.
-q or --query Query a specific gene.
-T or --test Runs the test cases and exits.
-E or --all Outputs all results, regardless of significance.
Output:
-o or --output The prefix of all output files (default: coincident).
If you use Coinfinder, please cite:
FJ Whelan, M Rusilowicz, & JO McInerney. "Coinfinder: Detecting Significant Associations and Dissociations in Pangenomes." doi: https://doi.org/10.1101/859371
テストラン
roaryで解析して得たgene_presence_absence.csvとnewick formatのツリーファイルを指定する。
git clone https://github.com/fwhelan/coinfinder-manuscript.git
cd coinfinder-manuscript/
coinfinder -i gene_presence_absence.csv -I -p core-gps_fasttree.newick -o out --associate
- -i The path to the gene_presence_absence.csv output from Roary
- -I Set if -i is in the gene_presence_absence.csv format from Roary
- -x The number of cores to use (default: 2)
- -p Phylogeny of Betas in Newick format (required)
- --associate Overlap; identify groups that tend to associate/co-occur (default).
- --dissociate Separation; identify groups that tend to dissociate/avoid.
出力
_pairs.tsvが有意な一致遺伝子ペアのタブ区切りリストになる。
ネットワークファイル.GEXF v1.2(Graph Exchange XML Format) では、各遺伝子(ノード)が統計的に互いに共起している場合は、各遺伝子がエッジで別の遺伝子に接続される。ノードは系統における系統非依存性によって重み付けされる(すなわち、ノードが大きいほど系統的に独立した遺伝子である)。ノードは、接続されたコンポーネント、または互いに関連性を持つ遺伝子のセットによって色分けされる。GEXFはGEXFに対応したネットワークビューアで可視化できる。
このデータは、系統に関連した有無のヒートマップとして表示することもできる 。
out_heatmap.pdf
拡大
ヒートマップ内の遺伝子は、D値の高い順(最も系統に依存しないものから低いものまで)に並べられ、一致パターンに応じて色分けされる。ヒートマップは見やすくするために必要に応じて複数のファイルに分割される。
すべてのユニークな一致遺伝子とそのD値のリストはout_nodes.tsvにまとめられる。
強制的に全結果を出力、20スレッド使用。
coinfinder -i gene_presence_absence.csv -I -p tree.newick -o out.prefix --associate -x 20 -E
引用
Coinfinder: detecting significant associations and dissociations in pangenomes Open Access
Fiona Jane Whelan, Martin Rusilowicz, James Oscar McInerney
Microbial Genomics, Published: 25 February 2020
関連