macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

生のシークエンシングリードからスケーラブルな高精度の系統樹を生成する Read2Tree(再掲載)

 

系統樹の推定は生物学の基礎となるものである。しかし、最新の系統樹解析では、複雑なパイプラインを実行する必要があり、多大な計算コストと人件費がかかる上、シーケンスのカバレッジアセンブリアノテーションの質にも制約がある。このような課題を克服するために、著者らはRead2Treeを提案する。Read2Treeは、生のシーケンシングリードを直接処理して、対応する遺伝子のグループに分割する。様々なデータセットを含むベンチマークにおいて、本アセンブル不要のアプローチは、従来のアプローチよりも10-100倍速く、ほとんどの場合においてより正確であった(例外はシーケンスカバレッジが高く、リファレンス種が非常に遠い場合)。このツールの幅広い適用性を示すため、5億9000万年の進化に及ぶ435種の酵母の生命の系統樹を再構築した。コロナウイルス科のサンプルに適用したところ、Read2Treeは、非常に多様な動物サンプルとほぼ同一のSARS-CoV-2配列を1つのツリー上で正確に分類し、驚くべき幅と深さを示した。Read2Treeのスピード、精度、汎用性により、大規模な比較ゲノム解析が可能になる。

 

インストール

依存

  • The following python packages are needed: numpy, scipy, cython, lxml, tqdm, pysam, pyparsing, requests, filelock, natsort, pyyaml, biopython, ete3, dendropy.
  • Besides, you need softwares including mafft (multiple sequence aligner), iqtree (phylogenomic inference), ngmlr, ngm/nextgenmap (long and short read mappers), and samtools which could be installed using conda.

Github

#依存するツールはcondaで導入できる
mamba create -n Read2Tree python=3
mamba install -c conda-forge biopython numpy Cython ete3 lxml tqdm scipy pyparsing requests natsort pyyaml filelock -y
mamba install -c bioconda dendropy #もしくはpipで
mamba install -c bioconda mafft iqtree ngmlr nextgenmap samtools -y
#本体
git clone https://github.com/DessimozLab/read2tree.git
cd read2tree
python setup.py install

#docker
docker pull dessimozlab/read2tree:latest

 

 

テストラン

docker

docker run --rm -i -v $PWD/tests:/input -v $PWD/tests/:/reads -v $PWD/output:/out -v $PWD/run:/run  dessimozlab/read2tree:latest  --tree --standalone_path /input/marker_genes --reads /reads/sample_1.fastq --output_path /out

 

引用

Read2Tree: scalable and accurate phylogenetic trees from raw reads

David Dylus, Adrian Altenhoff, Sina Majidian, Fritz J Sedlazeck, Christophe Dessimoz

bioRxiv. 2022 Dec 13;2022.04.18.488678

 

一度紹介しましたが、dockerイメージが公開されているので改めて紹介しました。

https://kazumaxneo.hatenablog.com/entry/2022/04/21/021338