新しい配列をリファレンス系統樹上に配置することは、環境サンプル、特にマイクロバイオームの解析にますます利用されるようになってきている。既存の配置手法は、クエリ配列がリファレンス系統上で直接特定のモデルの下で進化してきたと仮定している。例えば、単一遺伝子データ(16S rRNAアンプリコンなど)は、遺伝子ツリー上のGTRモデル(wiki)で進化したと仮定している。しかし、配置はより野心的な目標を持つことが多い: 進化モデルを知らないままで個々の遺伝子から得られたデータから(ゲノムワイドな)種のツリーを拡張することである。この困難な問題に取り組むには、新しい方向性が必要である。ここでは、Deep-learning Enabled Phylogenetic Placement (DEPP)を紹介する。DEPPは、事前にモデルを指定することなく、単一遺伝子を用いて種のツリーを拡張することを学習するアルゴリズムである。シミュレーションと実データにおいて、DEPPがモデルの事前知識なしにモデルベースの手法の精度に匹敵することを示す。また、DEPPは単一遺伝子を用いて多座の微生物の種のツリーを高い精度で更新できることも示す。さらに、DEPPは16Sデータとメタゲノム・データを1つのツリー上に組み合わせることができ、両方のデータソースを活用した群集構造解析が可能であることを示す。また、DEPPを用いることで、16Sデータとメタゲノム解析データを単一のツリー上に統合することができ、両データを活用した群集構造解析が可能になることも示している。
インストール
提供されているdockerのイメージを使用した。
#docker
docker pull yueyujiang/depp_env:test
#conda
wget https://tera-trees.com/data/depp/latest/depp_env.yml && mamba env create -f depp_env.yml && rm depp_env.yml
モデルのトレーニング
GPUが必要。100エポックごとにモデルを保存し、合計でnumber_of_epochsトレーニングする。以下はレポジトリで説明されている例。
git clone https://github.com/yueyujiang/DEPP && cd DEPP
train_depp.py backbone_seq_file=test/basic/backbone.fa backbone_tree_file=test/basic/backbone.nwk model_dir=test/basic/test_model gpus=0 epoch=1001
訓練後のモデルから、他のツリーファイルを使ってトレーニングすることもできる。
実行方法
提供されているdockerイメージを使う。
docker run -it --rm -v $PWD:/depp_test -w /depp_test yueyujiang/depp_env:test
距離行列の計算。事前学習済みモデルのファイル、バックボーン配列群とクエリ配列を指定する。
git clone https://github.com/yueyujiang/DEPP && cd DEPP
depp_distance.py backbone_seq_file=test/basic/backbone.fa query_seq_file=test/basic/query.fa model_path=test/basic/model.ckpt
行がクエリ配列、列がバックボーン配列のcsvファイルとして出力される(距離行列は ./depp_distance に格納される)。(model.ckptが消えているためテストできず。)
WoLマーカー遺伝子(link)とASVデータの事前学習済みモデルを提供する。クエリ配列をWoLの種のツリーに直接配置する。
git clone https://github.com/yueyujiang/DEPP && cd DEPP
#accessory_test.tar.gzをダウンロード(accessory_test.tar.gzの使用はクイックテスト用であり、データセット全体についてはaccessory.tar.gzを使用すること) 現在サイトへのアクセス不可
wget https://tera-trees.com/data/depp/latest/accessory_test.tar.gz && tar -xvf accessory_test.tar.gz -C ./
#DEPPのラン。解凍したディレクトリとクエリのディレクトリを指定する。
wol_placement.sh -a accessory_test -q test/wol_placement/ -o ./
サイト自体にアクセスできず、accessory_test.tar.gzをダウンロードできなかった。
引用
DEPP: Deep Learning Enables Extending Species Trees using Single Genes
Yueyu Jiang,corresponding author Metin Balaban, Qiyun Zhu, and Siavash Mirarab
Syst Biol. 2023 Jan; 72(1): 17–34
関連論文
Greengenes2 unifies microbial data in a single reference tree
Daniel McDonald, Yueyu Jiang, Metin Balaban, Kalen Cantrell, Qiyun Zhu, Antonio Gonzalez, James T. Morton, Giorgia Nicolaou, Donovan H. Parks, Søren M. Karst, Mads Albertsen, Philip Hugenholtz, Todd DeSantis, Se Jin Song, Andrew Bartko, Aki S. Havulinna, Pekka Jousilahti, Susan Cheng, Michael Inouye, Teemu Niiranen, Mohit Jain, Veikko Salomaa, Leo Lahti, Siavash Mirarab & Rob Knight
Nature Biotechnology (2023)Cite this article
https://www.nature.com/articles/s41587-023-01845-1