macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアゲノムからプロファージを予測してアノテーションをつける DBSCAN-SWA

2020 8/21 追記と修正

 

 ファージは、細菌宿主ゲノム中のバクテリオファージの細胞内形態として、通常、高い特異性を持って細菌のDNAに組み込まれ、水平遺伝子導入(HGT)に寄与している。ファージを用いて細菌を死滅させ、病原性細菌感染症や耐性細菌感染症を治療するなど、ファージ療法は広く応用されている。そのため、ファージを迅速かつ正確に同定するための有効なツールの開発が必要とされている。ここでは、細菌ゲノムのプロファージ領域を予測するために開発されたコマンドラインソフトウェアツールDBSCAN-SWAを紹介する。DBSCAN-SWAは、従来のどのツールよりも高速に動作する。重要なことは、184個の手動でキュレーションしたプロファージを用いた解析に基づく検出力が高く、Phage_Finder(63%)、VirSorter(74%)、PHASTER(82%)の生のDNA配列と比較して85%のリコールが得られていることである。また、DBSCAN-SWA は、環状プロファージビューアやインタラクティブな DataTables を含むユーザーフレンドリーな可視化機能を提供する。DBSCAN-SWAはPython3で実装されており、https://github.com/HIT-ImmunologyLab/DBSCAN-SWA/ からオープンソースのGPLv2ライセンスで自由に利用できる。

 

インストール

condaを使い依存ライブラリを導入してテストした(ubuntu18.04LTS使用)。

依存

  • numpy
  • Biopython
  • sklearn
  •  
mamba create -n dbscanswa -y
conda activate dbscanswa
mamba install -c anaconda numpy scikit-learn -y
mamba install -c conda-forge biopython -y

さらにprokkaも導入する。自分はすでにprokkaの仮想環境をcondaで作っていたので、その仮想環境のパスをexportして、このツールのランの時だけprokkaパスを追加で通した。

その後、prokkaの環境(python3.6)を作り直してテストした。

本体 Github

git clone https://github.com/HIT-ImmunologyLab/DBSCAN-SWA.git
cd DBSCAN-SWA/bin/
#diamondの実行権がないと言われるので実行権を付与する
chmod u+x -R ./*

python dbscan-swa.py

$ python dbscan-swa.py 

please input bacterial genome in fasta or GenBank format!

 

Usage: DBSCAN-SWA [options]

 

--input <file name>        : Query phage file path: FASTA or Multi-Fasta or GenBank file

--output <folder name>     : Output folder in which results will be stored

--prefix <prefix>          : default: bac:

--evalue <x>               : maximal E-value of searching for homology virus proteins from viral UniProt TrEML database. default:1e-7

--min_protein_num <x>      : optional,the minimal number of proteins forming a phage cluster in DBSCAN, default:6

--protein_number <x>       : optional,the number of expanding proteins when finding prophage att sites, default:10

--add_annotation <options> : optional,1.PGPD: a phage genome and protein database,2.phage_path:specified phage genome to detect whether the phage infects the query bacteria

3.none:no phage annotation. default:PGPD

--per <x>                  : Minimal % percentage of hit proteins on hit prophage region(default:30)

--idn <x>                  : Minimal % identity of hit region on hit prophage region by making blastn(default:70)

-cov <x>                   : Minimal % coverage of hit region on hit prophage region by making blastn(default:30)

 

 

テストラン

クエリのプロファージをデフォルトのパラメータで予測

python dbscan-swa.py --input ../test/NC_007054.gb --output outdir --prefix testrun

prokkaとdiamondのランは正常にできるようになったが、下流の処理でエラーが起きる。修正できたら追記します。 

 

引用

DBSCAN-SWA: an integrated tool for rapid prophage detection and annotation

Rui Gan, Fengxia Zhou, Yu Si, Han Yang, Chuangeng Chen, Jiqiu Wu, Fan Zhang, Zhiwei Huang

bioRxiv, Posted July 12, 2020