macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

種のツリーにクエリを追加する DEPP

 

 新しい配列をリファレンス系統樹上に配置することは、環境サンプル、特にマイクロバイオームの解析にますます利用されるようになってきている。既存の配置手法は、クエリ配列がリファレンス系統上で直接特定のモデルの下で進化してきたと仮定している。例えば、単一遺伝子データ(16S rRNAアンプリコンなど)は、遺伝子ツリー上のGTRモデル(wiki)で進化したと仮定している。しかし、配置はより野心的な目標を持つことが多い: 進化モデルを知らないままで個々の遺伝子から得られたデータから(ゲノムワイドな)種のツリーを拡張することである。この困難な問題に取り組むには、新しい方向性が必要である。ここでは、Deep-learning Enabled Phylogenetic Placement (DEPP)を紹介する。DEPPは、事前にモデルを指定することなく、単一遺伝子を用いて種のツリーを拡張することを学習するアルゴリズムである。シミュレーションと実データにおいて、DEPPがモデルの事前知識なしにモデルベースの手法の精度に匹敵することを示す。また、DEPPは単一遺伝子を用いて多座の微生物の種のツリーを高い精度で更新できることも示す。さらに、DEPPは16Sデータとメタゲノム・データを1つのツリー上に組み合わせることができ、両方のデータソースを活用した群集構造解析が可能であることを示す。また、DEPPを用いることで、16Sデータとメタゲノム解析データを単一のツリー上に統合することができ、両データを活用した群集構造解析が可能になることも示している。

 

インストール

提供されているdockerのイメージを使用した。

Github

#docker
docker pull yueyujiang/depp_env:test

#conda
wget https://tera-trees.com/data/depp/latest/depp_env.yml && mamba env create -f depp_env.yml && rm depp_env.yml

 

モデルのトレーニン

GPUが必要。100エポックごとにモデルを保存し、合計でnumber_of_epochsトレーニングする。以下はレポジトリで説明されている例。

git clone https://github.com/yueyujiang/DEPP && cd DEPP
train_depp.py backbone_seq_file=test/basic/backbone.fa backbone_tree_file=test/basic/backbone.nwk model_dir=test/basic/test_model gpus=0 epoch=1001

訓練後のモデルから、他のツリーファイルを使ってトレーニングすることもできる。

 

 

実行方法

提供されているdockerイメージを使う。

docker run -it --rm -v $PWD:/depp_test -w /depp_test  yueyujiang/depp_env:test

 

距離行列の計算。事前学習済みモデルのファイル、バックボーン配列群とクエリ配列を指定する。

git clone https://github.com/yueyujiang/DEPP && cd DEPP
depp_distance.py backbone_seq_file=test/basic/backbone.fa query_seq_file=test/basic/query.fa model_path=test/basic/model.ckpt

行がクエリ配列、列がバックボーン配列のcsvファイルとして出力される(距離行列は ./depp_distance に格納される)。(model.ckptが消えているためテストできず。)

 

WoLマーカー遺伝子(link)とASVデータの事前学習済みモデルを提供する。クエリ配列をWoLの種のツリーに直接配置する。

git clone https://github.com/yueyujiang/DEPP && cd DEPP

#accessory_test.tar.gzをダウンロード(accessory_test.tar.gzの使用はクイックテスト用であり、データセット全体についてはaccessory.tar.gzを使用すること) 現在サイトへのアクセス不可
wget https://tera-trees.com/data/depp/latest/accessory_test.tar.gz && tar -xvf accessory_test.tar.gz -C ./

#DEPPのラン。解凍したディレクトリとクエリのディレクトリを指定する。
wol_placement.sh -a accessory_test -q test/wol_placement/ -o ./

サイト自体にアクセスできず、accessory_test.tar.gzをダウンロードできなかった。

 

引用

DEPP: Deep Learning Enables Extending Species Trees using Single Genes

Yueyu Jiang,corresponding author Metin Balaban, Qiyun Zhu, and Siavash Mirarab

Syst Biol. 2023 Jan; 72(1): 17–34

 

関連論文

Greengenes2 unifies microbial data in a single reference tree

Daniel McDonald, Yueyu Jiang, Metin Balaban, Kalen Cantrell, Qiyun Zhu, Antonio Gonzalez, James T. Morton, Giorgia Nicolaou, Donovan H. Parks, Søren M. Karst, Mads Albertsen, Philip Hugenholtz, Todd DeSantis, Se Jin Song, Andrew Bartko, Aki S. Havulinna, Pekka Jousilahti, Susan Cheng, Michael Inouye, Teemu Niiranen, Mohit Jain, Veikko Salomaa, Leo Lahti, Siavash Mirarab & Rob Knight 

Nature Biotechnology (2023)Cite this article

https://www.nature.com/articles/s41587-023-01845-1