macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

パンゲノムにおいて有意な関連性の遺伝子を検出する Coinfinder

 

 原核生物および真核生物のパンゲノムのアクセサリー遺伝子は、遺伝子水平伝播、loss of gene、および選択の影響により蓄積する。 Coinfinderは、パンゲノム内の相同な遺伝子(遺伝子ファミリー)のセットが偶然に予想されるよりも頻繁に相互に関連または解離するかどうかを評価するソフトウェアプログラムである。 Coinfinderは、ユーザーが提供する系統樹を使用して、各アクセサリー遺伝子の系統依存性(系統発生分布)を評価する。これにより、Coinfinderは、偶然同じクレードに出現したために存在しない同時発生の遺伝子ペアに集中できる。むしろ、それらは系統発生全体で予想されるよりも頻繁に一緒に表示される傾向がある。 CoinfinderはC++、Python3およびRで実装されており、GNUライセンスの下でhttps://github.com/fwhelan/coinfinderから無料で入手できる。

 

インストール

依存

  • Cmake3.6 or greater 
  • Python3.6 or greater
  • Boost1.66 or greater 
  • OpenMP
  • gcc 5 or greater 
  • R libraries: caper, phytools, getopt, igraph, dplyr, cowplot, data.table, ggraph, flock, future
  • Bionconductor R library: ggtree 

本体 Github

#bioconda (link)
mamba create -n coinfinder-env -y
conda activate coinfinder-env
mamba install -c conda-forge -c bioconda -c defaults coinfinder -y

coinfinder -h

$ coinfinder -h

./confinder [OPTIONS]

File input- specify either: 

    -i or --input          The path to the gene_presence_absence.csv output from Roary

                           -or-

                           The path of the Alpha-to-Beta file with (alpha)(TAB)(beta)

    -I or --inputroary     Set if -i is in the gene_presence_absence.csv format from Roary

    -p or --phylogeny      Phylogeny of Betas in Newick format (required)

Max mode (mandatory for coincidence analysis):

    -a or --associate      Overlap; identify groups that tend to associate/co-occur (default).

    -d or --dissociate     Separation; identify groups that tend to dissociate/avoid.

Significance- specify: 

    -L or --level          Specify the significnace level cutoff (default: 0.05)

Significance correction- specify: 

    -m or --bonferroni     Bonferroni correction multiple correction (recommended & default)

    -n or --nocorrection   No correction, use value as-is

    -c or --fraction       (Connectivity analysis only) Use fraction rather than p-value

Alternative hypothesis- specify: 

    -g or --greater        Greater (recommended & default)

    -l or --less           Less

    -t or --twotailed      Two-tailed

Miscellaneous:

    -x or --num_cores      The number of cores to use (default: 2)

    -v or --verbose        Verbose output.

    -r or --filter         Permit filtering of saturated and low-abundance data.

    -U or --upfilthreshold Upper filter threshold for high-abundance data filtering (default: 1.0 i.e. any alpha in >=100/% of betas.

    -F or --filthreshold   Threshold for low-abundance data filtering (default: 0.05 i.e. any alpha in <=5% of betas.

    -q or --query          Query a specific gene.

    -T or --test           Runs the test cases and exits.

    -E or --all            Outputs all results, regardless of significance.

Output:

    -o or --output         The prefix of all output files (default: coincident).

 

 

If you use Coinfinder, please cite:

 

FJ Whelan, M Rusilowicz, & JO McInerney. "Coinfinder: Detecting Significant Associations and Dissociations in Pangenomes." doi: https://doi.org/10.1101/859371

 

 

テストラン

roaryで解析して得たgene_presence_absence.csvとnewick formatのツリーファイルを指定する。

git clone https://github.com/fwhelan/coinfinder-manuscript.git
cd coinfinder-manuscript/
coinfinder -i gene_presence_absence.csv -I -p core-gps_fasttree.newick -o out --associate
  • -i     The path to the gene_presence_absence.csv output from Roary
  • -I     Set if -i is in the gene_presence_absence.csv format from Roary
  • -x    The number of cores to use (default: 2)
  • -p     Phylogeny of Betas in Newick format (required)
  • --associate   Overlap; identify groups that tend to associate/co-occur (default).
  • --dissociate     Separation; identify groups that tend to dissociate/avoid.

出力

f:id:kazumaxneo:20200329170647p:plain

_pairs.tsvが有意な一致遺伝子ペアのタブ区切りリストになる。 

 

ネットワークファイル.GEXF v1.2(Graph Exchange XML Format) では、各遺伝子(ノード)が統計的に互いに共起している場合は、各遺伝子がエッジで別の遺伝子に接続される。ノードは系統における系統非依存性によって重み付けされる(すなわち、ノードが大きいほど系統的に独立した遺伝子である)。ノードは、接続されたコンポーネント、または互いに関連性を持つ遺伝子のセットによって色分けされる。GEXFはGEXFに対応したネットワークビューアで可視化できる。

このデータは、系統に関連した有無のヒートマップとして表示することもできる 。

out_heatmap.pdf

f:id:kazumaxneo:20200329170953p:plain

拡大

f:id:kazumaxneo:20200329170935p:plain

ヒートマップ内の遺伝子は、D値の高い順(最も系統に依存しないものから低いものまで)に並べられ、一致パターンに応じて色分けされる。ヒートマップは見やすくするために必要に応じて複数のファイルに分割される。

 

すべてのユニークな一致遺伝子とそのD値のリストはout_nodes.tsvにまとめられる。

f:id:kazumaxneo:20200329171516p:plain

 

強制的に全結果を出力、20スレッド使用。

 coinfinder -i gene_presence_absence.csv -I -p tree.newick -o out.prefix --associate -x 20 -E

 

引用

Coinfinder: detecting significant associations and dissociations in pangenomes Open Access
Fiona Jane Whelan, Martin Rusilowicz, James Oscar McInerney

Microbial Genomics, Published: 25 February 2020

 

関連