系統マーカー遺伝子を自動で取り出して自動で系統推定を行う PHANTASM

　16Sリボソーム RNA（rRNA）遺伝子の塩基配列は、数十年にわたり原核生物の分類学的位置づけを知るために用いられてきた。全ゲノム解析は、生物の進化的関係をより明確にすることができるが、このような解析には、微生物学者には珍しい計算能力が必要なことがよくある。PHANTASMは、これらのワークフローを自動化することができる新しいツールである。このツールは、幅広い原核生物に対応するように設計されており、NCBIのTaxonomyデータベースとList of Prokaryotic names with Standing in Nomenclature (LPSN) のデータベースとの自動照合を行った最初の例である。この研究では、PHANTASMのワークフローを説明し、それによって生成された結果のいくつかの例を提供する。ソースコードはGitHubで自由に利用できる。研究者が簡単にアクセスできるように、PHANTASMはDockerイメージとしても提供されている。このような分析の出発点を容易にするツールは他にも存在するが、PHANTASMはユーザーに高度な制御を提供し、出版品質の図を作成するために使用できる出力を生成する。

系統樹に基づくアプローチの結論は、解析に使用する参照配列の選択に依存する。近縁種を省略すると、分類が不正確になったり、本来は既出の分類群の下に分類されるべき新種の分類が提案されたりすることがある。このため、系統樹解析では、系統樹の再構築に強固な参照分類群のセットを含めるように努力することが重要である。WirthとWhitmanは、この問題を解決するために、ロドバクター科のグループの系統推定と進化の相関が高い系統マーカーを特定する新しい手法を採用した(ref.19)。この研究では、まず16S rRNA遺伝子の塩基配列を用いて、解析の対象とする分類群を決定した。しかし、この遺伝子は、このグループの系統樹との相関が低かった。この問題を解決するために、研究者たちはコア遺伝子に基づいて系統樹を作り、その結果得られた系統樹とコア遺伝子のそれぞれがどの程度相関しているかを調べた（ref.19）。この方法により、このグループの進化と高い相関を持つものとして、別の系統樹マーカーであるRpoCが同定された。WirthとWhitmanは、RpoCの配列類似性を利用して、解析対象の分類群に近縁でありながら、従来の16S rRNA遺伝子の配列類似性では検出されなかったゲノムを特定した。これにより、このグループの16S rRNA遺伝子配列の解像度が低いため、そうでなければ省かれていたであろう分類群も含めることができた。さらに、この方法によって、いくつかの新しい属が誤って提案されることを防ぎ、代わりに既存の属への分類の移行を容易にすることができた(ref.19)。この方法は、ブドウ球菌科（ref.20）やスフィンゴモナド科（ref.21）など、他の分類群の分類学的位置づけの評価にも有用であることが証明されており、系統樹マーカーをクレードごとに評価できることから、幅広い微生物分類群に適用することができる。本研究では、このワークフローを自動化するための新しいツールについて説明する。

detailed usage（docker内での使い方も含まれる）

https://github.com/dr-joe-wirth/phantasm/blob/master/docker_build_files/README.md

インストール

インストールするにはレポジトリの説明に従う。ここでは公式のdocker imageを使用する。

Github

Dockerhub

docker pull jwirth/phantasm:latest

> phantasm -h

phantasm -h

If you use this software in your research, please cite our paper:

Automating microbial taxonomy workflows with PHANTASM: PHylogenomic

ANalyses for the TAxonomy and Systematics of Microbes

Joseph S. Wirth and Eliot C. Bush, 2023

https://doi.org/10.1093/nar/gkad196

PHANTASM v1.0.4

Getting detailed help

phantasm help

Getting this message

phantasm -h

Getting the version

phantasm -v

phantasm version

Option 1: unknown reference genomes and unknown phylogenetic markers

Step 1: rank phylogenetic markers

phantasm getPhyloMarker <input genome(s)> <email>

Step 2: refine phylogeny using a phylogenetic marker

phantasm refinePhylogeny --locus_tag <locus tag(s)> <input genome(s)> <email>

phantasm refinePhylogeny --gene_num <gene number(s)> <input genome(s)> <email>

Option 2: unkonwn reference genomes and known phylogenetic marker

phantasm knownPhyloMarker <locus tag(s)> <input genome(s)> <email>

Option 3: known reference genomes

phantasm analyzeGenomes <genome directory> <human map file> <output directory> <email>

実行方法

dockerイメージを立ち上げて使う。

docker run --rm -itv $PWD:/mydata jwirth/phantasm:latest

適切な数のゲノム配列を持っているかどうか、また系統マーカー遺伝子が分かっているかどうかで使用するコマンドは変わる。

１、ゲノムも系統マーカー遺伝子も不明で、系統マーカー遺伝子を取得する。

圧縮していないgenbankファイル（fullの.gbff or .gbk）を含むディレクトリを指定する。NCBIなどからダウンロードしたgenbankファイルも認識するが、ディレクリ内に無関係のファイルがあってはならない。NCBIに問い合わせるのでメールアドレスも必要。

phantasm getPhyloMarker genbank_dir/ <email address>

#gbff１つだけの場合
phantasm getPhyloMarker genome.gbff <email address>

２、ゲノムは不明だが系統マーカー遺伝子は分かっている場合は、系統マーカー遺伝子のリストを指定する。

phantasm knownPhyloMarker maker_list genome_dir/ <email address>

３、既知ゲノムの場合

phantasm analyzeGenomes genome_dir/ <human map file> out_dir <email address>

出力について（Githubより）

speciesTree.nwk: これは種ツリーで、アウトグループにルートがあり、アウトグループはツリーに存在する。
speciesTree_outgroupPruned.nwk: 上記と同じ種ツリーだが、関連する系統関係の解像度を高めるためにアウトグループは刈り込まれている。
aai_matrix.txt：speciesTree_outgroupPruned.nwkのすべての分類群の平均アミノ酸同一性（AAI）を含む生のテキストファイル。
aai_heatmap.pdf: aai_matrix.txtのデータを視覚化したもので、speciesTree_outgroupPruned.nwkの分類群の順序と同じになるように分類群を並べている。Rパッケージgplotsのバグにより、現時点ではヒートマップと一緒にツリーをプロットできない。
ani_matrix.txt：speciesTree_outgroupPruned.nwkの全分類群の平均ヌクレオチド同一性（ANI）を含む生のテキストファイル。
ani_heatmap.pdf：ani_matrix.txtのデータを視覚化したもので、speciesTree_outgroupPruned.nwkの分類群の順序と同じになるように分類群を並べている。Rパッケージgplotsのバグにより、現時点ではヒートマップと並べてツリーをプロットできない。
coreGenesSummary.txt: 種ツリーを構築するために使用したコア遺伝子の詳細情報を含むタブ区切りファイルである。Locusタグ、遺伝子番号、遺伝子名、アノテーションは、入力ゲノムに対してのみ指定されている。示されたアライメントファイルは、解析に使用される他の参照ゲノムについてこれらのデータを決定するために使用することができる。
wgsHumanMap.txt：このファイルは、解析に使用したゲノムのアクセッション番号と、アラインメント、ツリー、ヒートマップで見られるヒト可読性の名前をすべてリストアップしている。analyzerGenomesを使用した場合は、このファイルに相当するものをユーザーが提供する。

phantasm getPhyloMarkerコマンドを試したところ、NCBIからダウンロードしたgbffファイルでは動作したが、prokkaで作成したgenbankファイルではLPSNとの照合時にエラーを起こしました。再現性は不明です。
ワークフローについては論文のdiscriptionで詳しく説明されています。

引用

Automating microbial taxonomy workflows with PHANTASM: phylogenomic analyses for the taxonomy and systematics of microbes
Joseph S Wirth, Eliot C Bush
Nucleic Acids Research, Published: 20 March 2023