macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムデータから病原性遺伝子や薬剤耐性遺伝子を予測するパイプライン PathoFact

 

 病原性微生物は、宿主に侵入し、コロニー化し、損傷を与えることで病気を引き起こす。細菌毒素を含む病原性因子は病原性に寄与する。さらに、抗菌薬耐性遺伝子は、病原体が治癒力のある治療法を回避することを可能にする。マイクロバイオームの構成、機能、疾患との因果関係を理解するためには、病原性因子と抗菌抵抗性遺伝子をその場で同定することが不可欠である。現在のところ、メタゲノムデータセットからこれらの因子を同時に同定するための計算機的アプローチは明らかに不足している。
 ここでは、高精度(それぞれ0.921、0.832、0.979)および特異度(0.957、0.989、0.994)で、病原性因子、細菌毒素、および抗菌抵抗性遺伝子を文脈に沿って予測するためのツールであるPathoFactを紹介する。シミュレーションされたメタゲノムデータセットでPathoFactの性能を評価し、メタゲノムデータ解析のための他の2つの一般的なワークフローと比較する。PathoFactは、病原性因子および毒素遺伝子の予測において、既存のすべてのワークフローを凌駕している。また、抗菌薬耐性の予測に関しては、他のパイプラインと比較しても遜色のない性能を示し、他のワークフローを凌駕している。さらに、実際の感染症と、病原性の可能性または細菌毒素のいずれかが役割を果たしていると仮定される慢性疾患を表す3つの公開されているcase and controlメタゲノムデータセットでPathoFactの性能を実証する。それぞれのケースにおいて、症例群と対照群の間で区別された病原性因子およびAMR遺伝子を同定し、それによって研究された疾患との新たな遺伝子関連を明らかにした。
 PathoFact は、メタゲノムデータ中の病原性因子、細菌毒素、および抗菌抵抗性遺伝子を同定するための、使いやすく、モジュール化された、再現性のあるパイプラインである。さらに、このツールは、これらの病原性因子の予測とmobile genetic elementsの同定を組み合わせたものである。これにより、関連遺伝子のゲノム コンテキストを考慮することで、解析にさらに深みが増す。さらに、病原性因子、毒素、および抗菌抵抗性遺伝子のためのPathoFactのモジュールは独立して適用できるため、柔軟で汎用性の高いツールとなっている。PathoFact、そのモデル、およびデータベースは、https://pathofact.lcsb.uni.lu で自由に利用できる。

 

 

f:id:kazumaxneo:20210508125238p:plain

PathoFactのワークフロー。論文より転載。

 

インストール

ubuntu18.04LTSでmambaを使ってテストした。

依存

  • snakemake version >= 5.5.4
  • SignalP 5.0

SignalP 5.0

#signalp ver.5.0
#step1 所属を記載してHP(link)に書いたメール先よりダウンロードする (linux or darwin)

#step2 解凍
tar -xvzf signalp-5.0b.tar.gz

#step3 バイナリとライブラリをコピーするかバイナリにパスを通す
cp signalp-5.0b/bin/signalp /usr/local/bin/
cp signalp-5.0b/bin/lib/* /usr/local/lib/

#test run
signalp -fasta signalp-5.0b/test/euk10.fsa -org euk -format short -prefix euk_10_short

 

 PathoFact

#サイズが24GB 10GBくらいあるので注意
git clone -b master --recursive https://git-r3lab.uni.lu/laura.denies/PathoFact.git
cd PathoFact/
#提供されているYMLファイルで環境を作る。
mamba env create -f=envs/PathoFact.yaml
conda activate PathoFact

PathoFact/config.yamlのsignalpのパスを修正する。 

 

 テストラン

PathoFactのtestディレクトリにあるSnakefileを叩いて実行する。PathoFact/config.yamlに加えて、test/test_config.yamlのsignalpのパスを修正してから実行すること。

f:id:kazumaxneo:20210508162252p:plain

実行。condaの環境が作られ、コマンドが実行される。

snakemake -s test/Snakefile --use-conda --reason --cores 1 -p

設定ファイルはtest/test_config.yaml になる。

test/test_config.yaml

f:id:kazumaxneo:20210508161722p:plain

test/test_sample.fnaが解析対象の配列。自分の配列を解析したい時は、少なくとも2行目は直す。

 

ランすると、カレントの.snakemake/にcondaの環境が作られ(*1)、それから計算が開始される。

出力

f:id:kazumaxneo:20210508162816p:plain

 

PathoFact_test_sample_predictions.tsv

f:id:kazumaxneo:20210508162854p:plain

 

Toxin_gene_library_test_sample_report.tsv

f:id:kazumaxneo:20210508162914p:plain

 

Toxin_prediction_test_sample_report.tsv

f:id:kazumaxneo:20210508162936p:plain

 

Virulence_prediction_test_sample_report.tsv

f:id:kazumaxneo:20210508162956p:plain

 

AMR_MGE_prediction_test_sample_report.tsv

f:id:kazumaxneo:20210508163113p:plain

 

メモリやCPUをかなり使うので、計算リソースがある程度確保できる環境で実行することが推奨されています。注意して下さい。

引用

PathoFact: a pipeline for the prediction of virulence factors and antimicrobial resistance genes in metagenomic data

Laura de Nies, Sara Lopes, Susheel Bhanu Busi, Valentina Galata, Anna Heintz-Buschart, Cedric Christian Laczny, Patrick May & Paul Wilmes
Microbiome volume 9, Article number: 49 (2021)

 

*1

時々失敗します。やり直すだけでランできる場合があります。