微生物は、特殊な代謝経路の酵素をコードする物理的にクラスタ化された遺伝子である生合成遺伝子クラスター(BGC)を発現することにより、膨大な種類の天然物を生産している。これらの天然物は、工業的・医学的利用価値の高い幅広いケミカルクラス(アミノグリコシド、ランチオビオティック、非リボソームペプチド、オリゴ糖、ポリケチド、テルペンなど)をカバーしている。メタゲノミクスは、培養に依存しないアプローチとして、微生物の機能性の可能性を調査する能力を大幅に向上させ、BGCのマイニングのために人気が高まっている。しかし、この目的のためにメタゲノムデータを効果的に利用するためには、非常に複雑で増大し続けるデータ量の中で、これらのゲノムエレメンツをより効率的に同定することが重要である。ここでは、超高速生合成遺伝子クラスタMEtagenomic eXplorationツールボックス(BiG-MEx)を開発することで、この課題に取り組む。BiG-MExは、幅広いBGCタンパク質ドメインを迅速に同定し、その多様性と新規性を評価し、メタゲノムデータ中の天然物BGCクラスのアバンダンスプロファイルを予測する。我々(著者ら)は、標準的なBGCマイニングアプローチと比較してBiG-MExの利点を示し、TARA OceansおよびHuman Microbiome ProjectのデータセットにおけるサンプルのBGCドメインとクラス構成の探索にBiG-MExを使用している。これらの解析において、BiG-MExがメタゲノムデータ中のBGCの分布、多様性、生態学的役割を研究するための適用可能性を示し、臨床応用が可能な天然物の探索の指針となることを示す。
Githubより
微生物の二次代謝は、その生態や生理に重要な役割を果たす多様な機能や化合物から構成されている。また、二次代謝では、工業的・医療的に価値の高い様々な産物が生産されている。これらの代謝経路に関わる遺伝子は、一般的に生合成遺伝子クラスター(BGC)と呼ばれる、生合成酵素をコードする物理的にクラスター化された遺伝子で構成されている(Fischbach & Voigt, 2010)。
配列決定されたゲノムにおけるBGCの同定は活発な研究分野となっているが(例:Cimermancicら、2014年、Weberら、2015年、Blinら、2016年)、配列決定されたゲノムデータベースには表れていない環境中の微生物の機能的多様性の膨大なリザーバーが存在する(Wilson & Piel、2013年)。メタゲノミクスは、新規BGCのために幅広い環境から微生物分類を採掘するユニークな機会を提供している(Medema & Fischbach, 2015)。しかし、このデータを利用する能力は、計算機の制限によって妨げられている。主に、これは、メタゲノムデータの複雑さと大量のデータ、および現在のシーケンシング技術は、完全長のBGCヌクレオチド配列と比較して、長さが桁違いに短いシーケンスリードを生成するという事実に由来している(Wilson & Piel, 2013)。
このような限界に対処するために、我々は超高速生合成遺伝子クラスターメタゲノム探索ツール(BiG-MEx)を開発した。BiG-MExは、ドメイン配列と完全長BGC配列のマイニングのための3つのモジュールから構成されている。
- ショートリードシークエンシングデータから150の生合成タンパク質ドメイン(44のBGCクラスを代表する)を高速に同定。
- 生合成多様性のドメインベース系統解析; 本モジュールでは、54種類のドメインのリファレンス系統を用いて系統配置を行う。
- 系統樹のクラスとサブクラスの豊富さの機械学習予測モデル; これらのモデルを生成するために、BGCのドメインアーキテクチャの保存されたパターンを利用している。また、環境や分類群に応じたBGCのクラスアバンダンス予測モデルを提供している。
https://github.com/pereiramemo/BiG-MEx/wiki
tutorial
Getting started · pereiramemo/BiG-MEx Wiki · GitHub
インストール
git clone https://github.com/pereiramemo/BiG-MEx.git
cd BiG-MEx/
> sudo ./run_bgc_dom_annot.bash --help #dockerを動かすので権限がなければsudo
Usage: run_bgc_dom_annot.bash <R1> <R2> <SR> <output directory> <options>
--help print this help
--intype CHAR type of input data (i.e. prot or dna)
--sample CHAR sample name (default "metagenomeX")
--nslots NUM number of slots (default 2). UProC parameter
--verbose t|f run verbosely (default f)
--overwrite t|f overwrite current directory (default f)
<R1> <R2> <SR> are the sequence files (fasta or fastq) to annoate the BGC domains
<output directory> is the directory name to be used
> sudo ./run_bgc_dom_annot.bash . . --help
Usage: run_bgc_dom_annot.bash <R1> <R2> <SR> <output directory> <options>
--help print this help
--intype CHAR type of input data (i.e. prot or dna)
--sample CHAR sample name (default "metagenomeX")
--nslots NUM number of slots (default 2). UProC parameter
--verbose t|f run verbosely (default f)
--overwrite t|f overwrite current directory (default f)
<R1> <R2> <SR> are the sequence files (fasta or fastq) to annoate the BGC domains
<output directory> is the directory name to be used
> sudo ../run_bgc_dom_div.bash meta . . . --help
Usage: run_bgc_dom_div.bash meta <input file> <R1> <R2> <SR> <output directory> <options>
--help print this help
--blast t|f run blast against reference database (default f)
--coverage t|f use coverage to compute diversity (default f)
--domains CHAR target domain names: comma-separated list
--font_size NUM violin plot font size (default 5). R parameter
--font_tree_size NUM tree plot font size (default 1). R parameter
--identity NUM clustering minimum identity (default 0.7). mmseqs cluster parameter
--num_iter NUM number of iterations to estimate diversity distribution (default 100)
--output_assembly t|f keep all assembly output files (default f)
--only_rep t|f place only representative cluster domain sequences onto reference tree (default t)
--plot_tree t|f place sequences onto reference tree and generate plot
--plot_height NUM violin plot height (default 3). R parameter
--plot_width NUM violin plot width (default 3). R parameter
--plot_tree_height NUM tree plot height (default 12). R parameter
--plot_tree_width NUM tree plot width (default 14). R parameter
--nslots NUM number of slots (default 2). metaSPAdes, FragGeneScan, hmmsearch, mmseqs cluster, bwa mem, and samtools parameter
--verbose t|f run verbosely (default f)
--overwrite t|f overwrite current directory (default f)
<input file> is the BGC domain annotation file generated by bgc_dom_annot (i.e,. *_bgc_dom.gz)
<R1>, <R2>, and <SR> are the sequence files (fasta or fastq) used to annotate the BGC domains with bgc_dom_annot
実行方法
1、(前処理済みの)メタゲノムのマージ済み・未マージのペアエンドfastqデータとorfファイル(protein.faa)をダウンロードする。
mkdir -p ~/bigmex_tutorial/
cd ~/bigmex_tutorial
git clone https://github.com/pereiramemo/BiG-MEx.git
cd BiG-MEx
URL="https://owncloud.mpi-bremen.de/index.php/s/OKqcBOn5gKqghqf/download" BIN="$(readlink -m ~/bigmex_tutorial/BiG-MEx)" WORKDIR="$(readlink -m ~/bigmex_tutorial/BiG-MEx/workdir)" mkdir -p "${WORKDIR}" cd "${WORKDIR}" curl -o metagenomic_samples.tar.gz "${URL}" tar xzfv metagenomic_samples.tar.gz
解凍してできるディレクトリ
2、BiG-Exのモジュールxbgc_dom_annotを使ってBGC domain abundance profile tableを出力する。BiG-Exには、このモジュールをdockerイメージから呼び出すラッパー(run_bgc_dom_annot.bash)が用意されている。
cd workdir/
#OSD2
sudo ../run_bgc_dom_annot.bash metagenomic_samples/OSD2_orfs.faa.gz \ metagenomic_samples/out_dom_annot_osd2 \ --intype prot --nslots 2 --sample osd2 --verbose t
#OSD3
sudo ../run_bgc_dom_annot.bash metagenomic_samples/OSD3_orfs.faa.gz \ metagenomic_samples/out_dom_annot_osd3 \ --intype prot --nslots 2 --sample osd3 --verbose t
#OSD4
sudo ../run_bgc_dom_annot.bash metagenomic_samples/OSD4_orfs.faa.gz \ metagenomic_samples/out_dom_annot_osd4 \ --intype prot --nslots 2 --sample osd4 --verbose t
metagenomic_samples/にout_dom_annot_osd2、out_dom_annot_osd3、out_dom_annot_osd4のサブフォルダが出力され、各サブフォルダ中にcount.tbl、class2domains2abund.tblファイルが出力される。これらのファイルは、リードのドメインアノテーションとBGCドメインカウントテーブルになる。
> head class2domains2abund.tbl
1列目はサンプル名、2列目はBGCクラス、3列目はドメイン、4列目はドメイン数
3、出力ディレクトリのse_bgc_dom.gzを移動後(dokcerを使用しているので同じディレクトリに移動している)、run_bgc_dom_div.bashを実行する。run_bgc_dom_div.bashには解説にあるように3つのモード:アンプリコン・メタゲノム・マージ、があるが、ここではメタゲノムモード(run_bgc_dom_div.bash meta)を実行する。このコマンドはfastqからBGCドメインをmetaspadesでターゲットアセンブリしてFragGeneScanとHMMER v3 でドメイン配列を同定、MMseqs2のクラスタリングモードでクラスタリング(ここではこのクラスタをオペレーショナルドメインユニット(ODU)と呼ぶ)する。それからBWA MEMでリードをODUにマッピングしてアバンダンスを計算、 シャノン多様性指数を算出するために使用する。最後に事前構築されたツリーにMAFFT -addとpplacerで配置する。
mv metagenomic_samples/out_dom_annot_osd2/se_bgc_dom.gz meametagenomic_samples/se_bgc_dom_osd2.gz
mv metagenomic_samples/out_dom_annot_osd3/se_bgc_dom.gz metagenomic_samples/se_bgc_dom_osd3.gz
mv metagenomic_samples/out_dom_annot_osd4/se_bgc_dom.gz metagenomic_samples/se_bgc_dom_osd4.gz
sudo ../run_bgc_dom_div.bash meta metagenomic_samples/se_bgc_dom_osd2.gz metagenomic_samples/OSD2_R1_shotgun_workable.fastq.gz metagenomic_samples/OSD2_R2_shotgun_workable.fastq.gz metagenomic_samples/out_dom_div_osd2 --blast t --identity 0.5 --plot_tree t --only_rep t --coverage t --nslots 2 --verbose t --domains PKS_KS,PKS_AT
sudo ../run_bgc_dom_div.bash meta metagenomic_samples/se_bgc_dom_osd3.gz metagenomic_samples/OSD3_R1_shotgun_workable.fastq.gz metagenomic_samples/OSD3_R2_shotgun_workable.fastq.gz metagenomic_samples/out_dom_div_osd3 --blast t --identity 0.5 --plot_tree t --only_rep t --coverage t --nslots 2 --verbose t --domains PKS_KS,PKS_AT
sudo ../run_bgc_dom_div.bash meta metagenomic_samples/se_bgc_dom_osd4.gz metagenomic_samples/OSD4_R1_shotgun_workable.fastq.gz metagenomic_samples/OSD4_R2_shotgun_workable.fastq.gz metagenomic_samples/out_dom_div_osd4 --blast t --identity 0.5 --plot_tree t --only_rep t --coverage t --nslots 2 --verbose t --domains PKS_AT
- --blast This will tell the module to blast the assembled domains against the reference databases
- --identity The clustering minimum identity (default 0.7) used by MMseqs2
- --plot_tree Place sequences onto reference tree and plot the resulting tree
- --only_rep Place only representative cluster domain sequences onto reference tree
- --coverage Use coverage to compute diversity
- --domains Target domain names as a comma-separated list
- --nslots Number of cores for metaSPAdes, FragGeneScan, hmmsearch, mmseqs cluster, bwa mem and, samtools
metagenomic_samples/out_dom_div_osd3
_cluster2abund.tsvにはアセンブルされたドメインのアバンダンスが記載されている。
metagenomic_samples/out_dom_div_osd3/PKS_KS_tree_data/
metagenomic_samples/out_dom_div_osd3/PKS_KS_tree_data/PKS_KS_placements_tree.pdf
OSD3の出力を載せた。OSD2とOSD4の出力も同様のファイル構造になっている。
このチュートリアルでは、OSD4には解析を行うのに十分なPKS_KS配列が存在しない。
4、PKS_AT domain
/run_bgc_dom_div.bashのマージモードを実行して、OSD2ー4の結果をマージする。
sudo ../run_bgc_dom_div.bash merge metagenomic_samples/out_dom_div_osd2,metagenomic_samples/out_dom_div_osd3,metagenomic_samples/out_dom_div_osd4 metagenomic_samples/out_dom_merged_div_osd_PKS_AT --num_iter 50 --sample_increment 20 --plot_rare_curve t --plot_tree t --only_rep t --nslots 2 --verbose t
out_dom_merged_div_osd_PKS_KS/PKS_AT_model_div_est.pdf - サンプル間のシャノン多様性指数
out_dom_merged_div_osd_PKS_KS/PKS_AT_rare_div_est.pdf - サンプル感のドメイン多様性
metagenomic_samples/out_dom_merged_div_osd_PKS_KS/PKS_AT_tree_data/PKS_AT_placements_tree.pdf - 全てのサンプルの系統配置
5,モデルのダウンロード
wget -P "${OUTPUT_DIR}" \
https://github.com/pereiramemo/BiG-MEx/wiki/files/Marine-RM_model.RData
cp Marine-RM_model.RData metagenomic_samples/
6,アノテーションされたBGCドメインを入力とし、bgcpred Rパッケージを使用してBGCクラスのアバンダンスプロファイルを予測。dockerを使うので同じディレクトリ階層にファイルを集めてから実行する。
cp metagenomic_samples/out_dom_annot_osd2/counts.tbl metagenomic_samples/counts_osd2.tbl
cp metagenomic_samples/out_dom_annot_osd3/counts.tbl metagenomic_samples/counts_osd3.tbl
cp metagenomic_samples/out_dom_annot_osd4/counts.tbl metagenomic_samples/counts_osd4.tbl
sudo bash ../run_bgc_class_pred.bash metagenomic_samples/counts_osd2.tbl metagenomic_samples/Marine-RM_model.RData metagenomic_samples/out_class_pred_osd2 --overwrite t --verbose t 2>&1 | tee bgc_class_pred_osd2.log
sudo bash ../run_bgc_class_pred.bash metagenomic_samples/counts_osd3.tbl metagenomic_samples/Marine-RM_model.RData metagenomic_samples/out_class_pred_osd3 --overwrite t --verbose t 2>&1 | tee bgc_class_pred_osd3.log
sudo bash ../run_bgc_class_pred.bash metagenomic_samples/counts_osd4.tbl metagenomic_samples/Marine-RM_model.RData metagenomic_samples/out_class_pred_osd4 --overwrite t --verbose t 2>&1 | tee bgc_class_pred_osd4.log
out_class_pred_osd2/bgc_class_pred.pdf
out_class_pred_osd3/bgc_class_pred.pdf
out_class_pred_osd4/bgc_class_pred.pdf
複雑でエラーが出やすい構成なので、コマンド実行時はファイルの移動なども含めて注意深く実行して下さい。
引用
Mining metagenomes for natural product biosynthetic gene clusters: unlocking new potential with ultrafast techniques
Emiliano Pereira, Marnix Medema, Pier Luigi Buttigieg, Peter Meinicke, Frank Oliver Gloeckner, Antonio Fernandez-Guerra
bioRxiv, Posted January 20, 2021