macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

病原性因子と抗生物質耐性遺伝子を同時に予測する HyperVR

 

 感染症は、公衆衛生と世界経済に深刻な問題を提起している。病原体が宿主細胞に接着し、繁殖し、ダメージを与えることを可能にするのは病原性因子(VFs)であり、抗生物質耐性遺伝子(ARGs)は、通常であれば治癒可能な治療を回避することを可能にする。VFsとARGsを同時に同定することで、病原体サーベイランスの時間を短縮することができる。しかし、ほとんどのツールはVFかARGのどちらかしか予測できない。VFとARGを同時に予測するツールはほとんどなく、通常は偽陰性率が高く、カットオフ閾値に敏感で、保存された遺伝子しか同定できない。VFとARGの同時予測を改善するために、本著者らはHyperVRと呼ばれるハイブリッドなディープ・アンサンブル学習アプローチを提案する。ベストヒットスコアと統計的遺伝子配列パターンの両方を考慮することで、HyperVRは古典的機械学習と深層学習を組み合わせ、VF、ARG、ネガティブ遺伝子(VFでもARGでもない)を同時に正確に予測する。個々のVFとARGの予測、in silicoスパイクイン実験(実際のメタゲノムデータ中のVFとARG)、および擬似VFと-ARG(遺伝子断片)に対して、HyperVRは現在の最先端の予測ツールを凌駕している。HyperVRは、厳密なカットオフしきい値を設定することなく、遺伝子配列情報のみを使用するため、予測は簡単で信頼性が高い。

 

 

インストール

依存

HyperVR is tested to work under:

  • Python 3.8
  • Tensorflow 2.8.0
  • Keras 2.8.0
  • numpy 1.21.2
  • sklearn 1.1.1
  • Xgboost 1.5.2

 

Github

git  clone https://github.com/jiboyalab/HyperVR.git
cd HyperVR/
#1 NCBI blastが必要(パスが通っているなら不要)
cd tools/ncbi-blast && wget -c https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.14.0+-x64-linux.tar.gz && tar -zxvf ncbi-blast-2.14.0+-x64-linux.tar.gz

#2 diamondも必要
cd tools/diamond && wget -c https://github.com/bbuchfink/diamond/releases/download/v2.0.5/diamond-linux64.tar.gz && tar -zxvf diamond-linux64.tar.gz

#3 uniref50が必要
cd tools/uniref50 && wget -c https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz && tar -zxvf uniref50.fasta.gz

#4 ダウンロードしたuniref50.fastaからblastpDBを作る
cd tools/uniref50
makeblastdb -dbtype prot -in uniref50.fasta -input_type fasta -parse_seqids -out uniref50_blast

 

実行方法

レポジトリで著者らの結果を再現する流れが説明されている。使用する遺伝子やARGの配列はHyperVR/data/以下に含まれている(レポジトリのData discription参照)。

HyperVR/data/

 

1、 generate_psm_profile.pyを実行して、各遺伝子配列のpsmプロファイルを生成する。分析対象の遺伝子のfastaファイル(data/Uniprot_ARG+VF+NS.fasta)、blastpのパスとuniref50_blast D.Bのパス、出力ディレクトリを指定する。*1

python src/generate_pssm_profile.py --file data/Uniprot_ARG+VF+NS.fasta --blastpgp tools/ncbi-blast/ncbi-blast-2.14.0+/bin --db tools/uniref50/uniref50_blast --outdir /src/pssm_profile

 

 

2、 generate_bitscore.pyを実行し、各遺伝子配列のbitscore特徴を生成する。分析対象の遺伝子のfastaファイル(data/Uniprot_ARG+VF+NS.fasta)、diamondのパスとデータベースのタンパク質配列(data/Database_GENE.fasta)、出力ディレクトリを指定する。

python src/generate_bitscore.py --file data/Uniprot_ARG+VF+NS.fasta --db_file data/Database_GENE.fasta --diamond_path tools/diamond/diamond --outdir src/bitscore

 

3、generate_bitscore.pyを実行し、各遺伝子配列のbitscore特徴を生成する。

python src/generate_bitscore.py --file data/Uniprot_ARG+VF+NS.fasta --db_file data/Database_GENE.fasta --diamond_path tools/diamond/diamond --outdir src/bitscore

 

4、generate_features/main.pyを実行して、各遺伝子配列の統計的遺伝子配列パターンを生成する:

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type AAC --out src/AAC_encoding.tsv

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type DPC --out src/DPC_encoding.tsv

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type DDE --out src/DDE_encoding.tsv

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type PAAC --out src/PAAC_encoding.tsv

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type QSOrder --out src/QSOrder_encoding.tsv

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type OHE --out src/OHE_encoding.tsv

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type PSSMC --path src/pssm_profiles --out /src/PSSMC_encoding.tsv

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type RPMPSSM --path src/pssm_profiles --out /src/RPMPSSM_encoding.tsv

python /src/generate_features/main.py --file data/Uniprot_ARG+VF+NS.fasta --type AADPPSSM --path src/pssm_profiles --out /src/AADPPSSM_encoding.tsv

 

5、hyperVR_cv/main.pyを実行し、5-fold cvによるモデルの訓練と検証を行う。

python src/HyperVR_cv/main.py --feature_path src --label_path data

 

引用
HyperVR: a hybrid deep ensemble learning approach for simultaneously predicting virulence factors and antibiotic resistance genes
Boya Ji, Wending Pi, Wenjuan Liu, Yannan Liu, Yujun Cui, Xianglilan Zhang, Shaoliang Peng

NAR Genom Bioinform. 2023 Mar; 5(1):  Published online 2023 Feb 11

 

*1 blastプログラムのパスを認識しなかったので、generate_pssm_profile.pyの75行目のncbidirのパスをblastが配置されているパスに書き換えた(unirefのDBを作ったmakeblastdbと違うバージョンだとエラーが起きる可能性があるので注意)。