非培養微生物のゲノム再構築(ビニング)は、微生物群集DNA(メタゲノムDNA)の包括的なシーケンシングおよび新規の計算手法により最近になって実現可能になった[ref. 1-3]。再構成されたゲノムビンは、以前には特徴付けられていなかった微生物群の生化学、生理学および適応への新しい洞察を提供した[ref.4-8]。さらに、それらは、培養されていない微生物コミュニティ内の水平遺伝子伝達(HGT)を研究する機会を提供する。
生物間の遺伝情報伝播であるHGTは、抗生物質耐性と病原性の発達を含む、微生物の進化と適応の重要な推進力であると考えられている[ref.9、10]。いくつかのバイオインフォマティクスツールが、 HGTを同定するための一連のアルゴリズムおよび特徴を用いて開発されてきた。例えば、GIST [ref.11]とIslandViewer [ref.12](紹介)はゲノム配列の構成上の特徴を利用してHGTイベントを予測するが、DarkHorse [ref.13]とHGTector [ref.14]はHGT予測に配列類似性(最良一致)を使用する。明示的な系統学的アプローチはRanger-DTL [ref.15]とAnGST [ref.16]によって採用されている。これらは遺伝子ツリーと対応するspeciesツリーとの調和を通してHGTを予測する。
しかしながら、現在のHGT検出方法は、コミュニティ全体に適用することができず、またはリファレンスゲノムを必要とする。たとえば、HGTector [reff.14]は定義された遠位グループのメンバーから定義された自己グループメンバーまでのHGTしか検出できないため、微生物コミュニティ内のすべてのメンバーのHGTを予測する用途は限られている。培養されていない微生物には利用できないことが多いHGTを予測する。
そこで本著者らは、ここでMetaCHIP(「メタゲノム」の「Meta」、「コミュニティレベルのHGT識別パイプライン」の「CHIP」)を開発した。これはリファレンスに依存しない、コミュニティレベルのHGT識別のためのパイプラインである。シミュレートされたデータと実際のデータを分析した結果、MetaCHIPはコミュニティからのHGTを高い信頼性で検出し、新しい生物学的および生態学的洞察を得ることができることを示した。
MetaCHIPのワークフローは論文図1に示されている。MetaCHIPはHGT検出のためにベストマッチと系統発生アプローチの両方を使用する(上記参照)。 その入力は、メタゲノムデータおよびそれらの分類学的分類に由来する一組のゲノムまたはゲノムビンの配列ファイルである。 系統学的に較正されたゲノム分類データベース(GTDB)[ref.18]に基づく最近開発されたGTDB-Tkツール[ref.17]は、入力ゲノムの分類の分類に推奨されている。 入力ゲノムは、最初にユーザー指定のランク(e.g. class, order, family or genus)でそれらの分類に従いMetaCHIPによって分類される。(以下略)
Fig.1 Workflow of MetaCHIP. 論文より転載
manual
https://github.com/songweizhi/MetaCHIP/blob/master/manual/MetaCHIP_User_Manual_v1.1.10.pdf
インストール
ubuntu16.04のminiconda3-4.3.21環境(python 3.6.1)でテストした(docker使用、ホストOS mac os10.14)。
依存
Python libraries
- BioPython: Python tools for computational molecular biology.
- Numpy: fundamental package for scientific computing with Python.
- SciPy: Python-based ecosystem for mathematics, science, and engineering.
- Matplotlib: Python plotting library.
- ETE3: Python environment for tree exploration.
R packages
- optparse: command line option parser in R.
- ape: package for analyses of phylogenetics and evolution in R.
- circlize: package for circular visualization.
Third-party software
MetaCHIP makes use of the following 3rd party dependencies and assumes these are on your system path. Specify full path to their executables in the config file if they are not on the system path.
- Prodigal: protein-coding gene prediction tool for prokaryotic genomes.
- HMMER: tool for biosequence analysis using profile hidden Markov models.
- MAFFT: multiple sequences alignment program.
- FastTree: tool for inferring phylogenies from alignments .
- BLAST+: you know what it is!
- Ranger-DTL 2.0: software for inferring gene family evolution.
本体 Github
pip install MetaCHIP
進捗log
Successfully built MetaCHIP ete3 subprocess32
Installing collected packages: numpy, biopython, python-dateutil, pytz, backports.functools-lru-cache, cycler, subprocess32, kiwisolver, matplotlib, scipy, pillow, reportlab, ete3, MetaCHIP
Successfully installed MetaCHIP-1.1.10 backports.functools-lru-cache-1.5 biopython-1.73 cycler-0.10.0 ete3-3.1.1 kiwisolver-1.0.1 matplotlib-2.2.4 numpy-1.16.2 pillow-5.4.1 python-dateutil-2.8.0 pytz-2018.9 reportlab-3.5.13 scipy-1.2.1 subprocess32-3.5.3
ヘルプ
> MetaCHIP -h
$ MetaCHIP -h
...::: MetaCHIP v1.1.10 :::...
HGT detection modules:
PI -> Prepare Input files
BM -> Best-Match approach
PG -> PhyloGenetic approach
# for command specific help
MetaCHIP PI -h
MetaCHIP BM -h
MetaCHIP PG -h
kazu@b1a29c465ac7:/bin$
> MetaCHIP PI -h
$ MetaCHIP PI -h
usage: MetaCHIP PI [-h] -i I [-taxon TAXON] -p P [-r R] [-g G] [-x X]
[-grouping_only] [-nonmeta] [-noblast] [-t T] [-qsub]
[-force] [-quiet]
Prepare input files
optional arguments:
-h, --help show this help message and exit
-i I input genome folder
-taxon TAXON taxonomic classification
-p P output prefix
-r R grouping rank
-g G grouping file
-x X file extension
-grouping_only run grouping only, deactivate Prodigal and Blastn
-nonmeta annotate Non-metagenome-assembled genomes (Non-MAGs)
-noblast not run all-vs-all blastn
-t T number of threads, default: 1
-qsub run blastn with job scripts, only for HPC users
-force overwrite previous results
-quiet not report progress
Example: MetaCHIP PI -h
> MetaCHIP BM -h
$ MetaCHIP BM -h
usage: MetaCHIP BM [-h] -p P [-r R] [-g G] [-cov COV] [-al AL] [-flk FLK]
[-ip IP] [-ei EI] [-t T] [-plot_iden] [-NoEbCheck] [-force]
[-quiet] [-tmp]
Best-match approach
optional arguments:
-h, --help show this help message and exit
-p P output prefix
-r R grouping rank
-g G grouping file
-cov COV coverage cutoff, default: 75
-al AL alignment length cutoff, default: 200
-flk FLK the length of flanking sequences to plot (Kbp), default: 10
-ip IP identity percentile cutoff, default: 90
-ei EI end match identity cutoff, default: 95
-t T number of threads, default: 1
-plot_iden plot identity distribution
-NoEbCheck disable end break and contig match check for fast processing,
not recommend for metagenome-assembled genomes (MAGs)
-force overwrite previous results
-quiet Do not report progress
-tmp keep temporary files
Example: MetaCHIP BM -h
> MetaCHIP PG -h
$ MetaCHIP PG -h
usage: MetaCHIP PG [-h] -p P [-r R] [-g G] [-cov COV] [-al AL] [-flk FLK]
[-ip IP] [-ei EI] [-t T] [-force] [-quiet]
Phylogenetic approach
optional arguments:
-h, --help show this help message and exit
-p P output prefix
-r R grouping rank
-g G grouping file
-cov COV coverage cutoff, default: 75
-al AL alignment length cutoff, default: 200
-flk FLK the length of flanking sequences to plot (Kbp), default: 10
-ip IP identity percentile, default: 90
-ei EI end match identity cutoff, default: 95
-t T number of threads, default: 1
-force overwrite previous results
-quiet Do not report progress
Example: MetaCHIP PG -h
dockerイメージも上げておきます。
docker pull kazumax/metachip
#ホストのカレントディレクトリとイメージの/dataをシェアして起動(pullを飛ばして以下を実行してもOK)
docker run -itv $PWD:/data/ -w /root/MetaCHIP kazumax/metachip
> source ~/.profile
> MetaCHIP PG -h
実行方法
調べたい全てのゲノムのfastaファイルが入ったディレクトリを指定して実行する。
テストディレクトリの中身。ラン時はfastaファイルのprefixを-xで指定する(e.g., -x fasta)。
ランにはfastaの他にbinsにtaxonomic情報をアサインしたTSVファイルも必要になる。GTDB-Tk(github)を使うことが推奨されている。テストランのhuman_gut_bins_GTDB.tsvの中身。
1、MetaCHIP PI
準備
MetaCHIP PI -i human_gut_bins -x fasta -taxon human_gut_bins_GTDB.tsv -r c -p Soil -t 8
出力解説(githubより)
Output files:
1. Grouping result is exported to [prefix]_grouping_[taxon_rank][group_num].txt.
2. Gene calling results in GenBank and FASTA format.
3. A SCG protein tree of input genomes.
4. A bar plot shows the number of input genomes in each group at provided taxonomic rank.
5. Blast results
1の出力ディレクトリを-p Soilと指定すると、"Soil_MetaCHIP_wd"ディレクトリができる。以降のコマンドは"Soil"だけ指定すれば認識する。
出力ディレクトリ
2、MetaCHIP BM
ベストマッチアプローチでHGT検出
MetaCHIP BM -p Soil -r c -t 8
結果は1の出力に追加される。
> cat Soil_MetaCHIP_wd/Soil_c5_HGTs_ip90_al200bp_c75_ei90bp_f10kbp/Soil_c5_HGTs_BM.txt
$ cat Soil_MetaCHIP_wd/Soil_c5_HGTs_ip90_al200bp_c75_ei90bp_f10kbp/Soil_c5_HGTs_BM.txt
Gene_1 Gene_2 Gene_1_group Gene_2_group Identity end_match full_length_match
bin15_01531 bin96_00912 A C 72.587 no no
bin30_00569 bin829_00466 A E 66.221 no no
> cat Soil_MetaCHIP_wd/Soil_c5_HGTs_ip90_al200bp_c75_ei90bp_f10kbp/Soil_c5_HGTs_BM_aa.fasta
$ cat Soil_MetaCHIP_wd/Soil_c5_HGTs_ip90_al200bp_c75_ei90bp_f10kbp/Soil_c5_HGTs_BM_aa.fasta
>bin15_01531
MSYVDEVLAYVVAKNPAQPEFHQAVKEVLESLRVVIEANEEEYRKDALLERLITPERVIM
FRVPWVDDKGNVQVNNGFRVQFNSAIGPYKGGLRFHPSVNLGIIKFLGFEQIFKNSLTGL
PIGGGKGGSDFDPKGKSDREVMAFCQSFMTELCKHIGADTDVPAGDIGVGGREIGFLYGQ
YKRIRNLYEGVLTGKGLTYGGSLARTEATGYGLLYLTEEMLKCNGKDIAGKTIAVSGSGN
VAIYAIQKAQQLGAKPVTCSDSTGWVYDPEGIDVALLKEVKEVHRARLTEYAAKRPSAEY
HDKATEGTNQWSVKVDIALPCATQNELNIDDAKALVANGVFAVAEGANMPTTLEATEYFQ
NNGILFCPGKASNAGGVATSALEMSQNSERLSWTFEEVDSKLKNIMVNIFHNLDDASKKY
GMEGNYVAGANIAGFLKVAEAMKAQGIV*
>bin30_00569
VRGFIRSVPKRRLKMSYIDEVLNRTTTRYDYQPEFCQAVTEVLKSIEPAVERNPQYQKAA
LLERLVAPEKATVFRVPWVDDNGTVHVNRGYRVQFNSAIGPYKGGLRFHPSVNMSIIKFL
GFEQTFKNSLTGLPIGGGKGGSDFDPKGKSDYEIMRFCQCFMTELYKVIGPNSDVPAGDI
GVGGREIGYLFGQYKKITGRHEGVLTGKGLSYGGSLARTEATGYGLIYLVEEMLKNHGNS
IEGKTVAVSGSGNVAIYAIEKAQMFGAKVVTASDSSGYVYDKDGIDIALLKQVKEQERAR
IVRYTELKPTAKFVPGKRVWEVPCDVALPCATQNELSLDDAKELIKNGCIAVGEGANMPS
TIDATNAFLQSKVLFAPAKAANAGGVATSALEMSQNSARMIWTFDEVDEKLKDIMESIYG
HMANAAKEYSTPDDFVAGANIAGFLKVADAMMAQGIV*
>bin829_00466
VAVPLGRLGRILVDGLHDLLQLGVDLLEGPGEPCGVLAHLEGGGGDTSGVGGLGGCEEDS
RRLVLGDGLGGGGHVCSLSDRVASVLDQDLGGLLVDLVLGRAGECDVAGDGPDAVAALGV
LGVLSEVVVEVGLYPVPLLLLDELEVPVVDTVVVLDVSVGVGDRDDLGSELGGLLAGVDG
DVSGSGDDDLLSLEGLAVGLQHLVDEVAETVSGGLGPGEGSAGADGLSGQDAGELVSEPL
VLTEHVSDLPSAGTDVSCGDVGVGTDVSEELGHEGLAEAHDLVVGLALGVEVGSSFSSSD
GEGGEAVLEDLLETEEFQDGQVDGGVQPESSLVGSDRRVELDAVSAVDLDLSVVVHPGHA
EHDDPLGFNEPLDDSVLLDLGAGLDDGLQGDEDFLDGLEELGLVCVALFQTVVDGFQVLV
VDCHHKCLKDLLTFVYCR*
>bin96_00912
MSYVDDVIELTVKQNPSEPEFHQAVKEVLESLRVVIEANEEEYKKNALLERLVNPERQLK
FRVPWVDDNGQVQVNTGYRVQFNSAIGPYKGGLRFHPSVNVGIIKFLGFEQIFKNSLTGL
AIGGGKGGSDFDPKGKSDREIMAFCQSFMTELFKYIGADTDVPAGDIGVGGREIGFLYGQ
YKRIRGLSEGVLTGKALSYGGSLARTEATGYGLLYFTDAMLKANDIDIKGKTIAVSGAGN
VAIYAIEKAQQLGGNPVTCSDSTGWIYDPEGIDVELLKEVKEVKRARLTEYAEARPSAEY
HEGKGVWSVKCDIALPCATQNELLLDDAKQLVANGVVAVAEGANMPTSIEATEYLQDNDV
LFGPGKASNAGGVATSALEMAQNSQRLSWDFDKVDKRLKVIMENIFANVDEAAKTYGFEK
NYVVGANIAGFEKVVDAMNAQGIV*
HGT候補のDNA配列も出力される。
3、MetaCHIP PG
PhyloGenetic approachでHGT検出。BMとPGを最後に比較するため2を先に実行しておく必要がある。
MetaCHIP PG -p Soil -r c -t 8
結果は1、2の出力に追加される。
BMのランと同様にPG候補のDNA配列と予測コード領域のアミノ酸配列も出力される。
まとめ
引用
MetaCHIP: community-level horizontal gene transfer identification through the combination of best-match and explicit phylogenetic tree approaches
Weizhi Song, Bernd Wemheuer, Shan Zhang, Kerrin Steensen, Torsten Thomas
Microbiome 2019 7:36