系統学的解析は、細菌の多様性と進化を研究する上で切っても切り離せないものとなっており、多くの異なる細菌のコア遺伝子が照合され、系統樹の再構築に用いられてきた。しかし、これらの遺伝子は、すべての細菌ゲノムにおけるその存在と単一コピー率に基づいて選択されており、遺伝子の「系統学的忠実性」は検討されていない。
11,262種からの完全長の30,522ゲノムから、これまでに系統学的解析に用いられてきた148の細菌コア遺伝子を調べた。遺伝子の存在とシングルコピー率に加えて、各遺伝子の系統を対応する16S rRNA遺伝子の系統樹と比較することにより、遺伝子の系統的忠実度を評価した。148の細菌遺伝子のうち、20の検証済み細菌コア遺伝子(VBCG)が、細菌の系統学的忠実度が最も高いコア遺伝子セットとして選択された。より大規模な遺伝子セットと比較して、20遺伝子のコアセットは、すべての遺伝子が存在する種が多く、欠損データのある種が少ないという結果をもたらし、系統学的解析の精度を向上させた。大腸菌株を著名な細菌性食中毒病原体の例として用い、16S rRNA遺伝子ツリーのみでは不可能であった、20 VBCGが種および株レベルでより高い忠実度と解像度を持つ系統樹を作成することを実証した。
検証された20のコア遺伝子セットにより、系統学的解析の忠実性とスピードが向上した。他の用途の中でも、このツールはヒト病原体などの細菌株の進化、タイピング、追跡を探求する能力を向上させる。
レポジトリより
20 個の検証済みコア遺伝子セットは、系統学的解析の忠実度とスピードを向上させる。他の用途の中でも、このツールはヒト病原体などの細菌株の進化、タイピング、追跡を探求する能力を向上させる。Pythonパイプラインとデスクトップグラフィックアプリ(GitHubで入手可能)を開発し、ユーザーが高い忠実度と解像度で系統解析を行えるようにした。
インストール
ubuntu22.04でテストした。windows向けには簡単なGUIアプリが準備されており、.EXE形式のインストーラーをダウンロードできる(link)。
依存
- Bio >= 1.5.3
- Pandas
- Prodigal
- HMMER
mamba create -n vbcg python=3.9 -y
conda activate vbcg
pip install biopython pandas
mamba install -c bioconda prodigal hmmer
> python bin/vbcg.py -h
usage: vbcg.py [-h] -i INDIR [-H HMM] [-o OUTDIR] [-m {raxml,fasttree}] [-g MISSING_GENES] [-n NPROC]
VBCG v1.3
This program build a phylogenomic tree of 20 validated bacterial core genes (VBCG) with input of whole genome sequence FASTA files. In addition, you can specify a custom bacterial core gene set with the option -H.
The processes include gene prediction with Prodigal, gene annotation with HMMER, protein sequence alignment with Muscle, alignment trimming with Gblock, ML tree reconstruction with FastTree or RAxML.
optional arguments:
-h, --help show this help message and exit
-i INDIR, --indir INDIR
Input directory with whole genome sequence FASTA files
-H HMM, --hmm HMM HMM models for core genes to concatenate. If you use a custom HMM model file, please index it using hmmpress first [Default: /home/kazu/Documents/vbcg/bin/../lib/vbcg.hmm]
-o OUTDIR, --outdir OUTDIR
Output directory [Default: vbcg_out/]
-m {raxml,fasttree}, --tree_maker {raxml,fasttree}
Tools for phylogenetic tree reconstruction. options include fasttree (FastTree) and raxml (RAxML). [Default: fasttree]
-g MISSING_GENES, --genes MISSING_GENES
Number of missing genes allowed for each species [default: 4]
-n NPROC, --nproc NPROC
Number of CPUs to use [default: 10]
実行方法
本プログラムvbcg.pyは、全ゲノム配列FASTAファイルを入力し、20の検証済み細菌コア遺伝子(VBCG)の系統樹を構築する。また、-Hオプションでカスタム細菌コア遺伝子セットを指定することもできる(デフォルトの20遺伝子のHMMファイルはインストール時に含まれている)。vbcg.pyを実行することで、Prodigalによる遺伝子予測、HMMERによる遺伝子アノテーション、Muscleによるタンパク質配列アライメント、Gblockによるアライメントトリミング、FastTreeまたはRAxMLによるMLツリー再構築が行われる。
実行するには、ゲノムのfastaファイル(.gzやzip圧縮していても、非圧縮でもOK)を配置したディレクトリと出力ディレクトリ、系統学的再構築のためのツール、使用スレッド数を指定する。
python bin/vbcg.py -i input_genomes/ -o outdir -m fasttree
- -i Input directory with whole genome sequence FASTA files
- -o Output directory [Default: vbcg_out/]
- -m {raxml, fasttree} Tools for phylogenetic tree reconstruction. options include fasttree (FastTree) and raxml (RAxML). [Default: fasttree]
- -n Number of CPUs to use [default: 10]
(fastaファイルのディレクトリにFASTA以外のファイルやサブフォルダは含めてはならない。また、ディレクトリ名やファイル名にスペースを含めない)
ゲノム10個を用いてテストしたところ、計算は1分以内に終了した(3990X、20スレッド指定)。
出力例
> ls -alth outdir/
論文より
-
これまでの研究はすべて、遺伝子の存在比とシングルコピー比を利用して、保存されたシングルコピー遺伝子をスクリーニングし、系統樹を構築してきた。しかし、これには明らかな欠点がある。すなわち、選択された遺伝子は系統樹を再構築する際に忠実であるかどうか調べられておらず、その結果、進化のシグナルが一致しない可能性があることである。コアゲノムの系統樹は、他の複数遺伝子系統樹と同様に、選択された遺伝子セットの連結配列に基づいて再構築される。ある遺伝子を含むと、その遺伝子の系統樹が他の遺伝子の系統樹と不一致を示す時、進化のシグナルが低下し、その結果得られる系統樹のトポロジーと解像度の精度が低下する。従って、正確な系統樹を再構築するためにコアゲノムの遺伝子を選択するためには、高い存在率と単一コピー比に加えて、遺伝子セット内の遺伝子の系統樹の一致度を示す指標である系統樹忠実度についても調べる必要があることを提案する。ここでは、16 s rRNA遺伝子ツリーを用いて、コア遺伝子候補の系統的忠実度を評価・比較し、細菌系統学的解析のための20の高忠実度遺伝子を同定した。このコア遺伝子セットを用いて、ゲノム配列を入力として系統樹を自動構築するパイプラインVBCGを開発した。
引用
VBCG: 20 validated bacterial core genes for phylogenomic analysis with high fidelity and resolution
Renmao Tian, Behzad Imanian
Microbiome. 2023 Nov 8;11(1):247
関連
・最新のバクテリアコア遺伝子セットを使った系統解析パイプライン UBCG2