macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノムbinsからHGTを検出する MetaCHIP

 

 非培養微生物のゲノム再構築(ビニング)は、微生物群集DNA(メタゲノムDNA)の包括的なシーケンシングおよび新規の計算手法により最近になって実現可能になった[ref. 1-3]。再構成されたゲノムビンは、以前には特徴付けられていなかった微生物群の生化学、生理学および適応への新しい洞察を提供した[ref.4-8]。さらに、それらは、培養されていない微生物コミュニティ内の水平遺伝子伝達(HGT)を研究する機会を提供する。

 生物間の遺伝情報伝播であるHGTは、抗生物質耐性と病原性の発達を含む、微生物の進化と適応の重要な推進力であると考えられている[ref.9、10]。いくつかのバイオインフォマティクスツールが、 HGTを同定するための一連のアルゴリズムおよび特徴を用いて開発されてきた。例えば、GIST [ref.11]とIslandViewer [ref.12](紹介)はゲノム配列の構成上の特徴を利用してHGTイベントを予測するが、DarkHorse [ref.13]とHGTector [ref.14]はHGT予測に配列類似性(最良一致)を使用する。明示的な系統学的アプローチはRanger-DTL [ref.15]とAnGST [ref.16]によって採用されている。これらは遺伝子ツリーと対応するspeciesツリーとの調和を通してHGTを予測する。

 しかしながら、現在のHGT検出方法は、コミュニティ全体に適用することができず、またはリファレンスゲノムを必要とする。たとえば、HGTector [reff.14]は定義された遠位グループのメンバーから定義された自己グループメンバーまでのHGTしか検出できないため、微生物コミュニティ内のすべてのメンバーのHGTを予測する用途は限られている。培養されていない微生物には利用できないことが多いHGTを予測する。

そこで本著者らは、ここでMetaCHIP(「メタゲノム」の「Meta」、「コミュニティレベルのHGT識別パイプライン」の「CHIP」)を開発した。これはリファレンスに依存しない、コミュニティレベルのHGT識別のためのパイプラインである。シミュレートされたデータと実際のデータを分析した結果、MetaCHIPはコミュニティからのHGTを高い信頼性で検出し、新しい生物学的および生態学的洞察を得ることができることを示した。

 MetaCHIPのワークフローは論文図1に示されている。MetaCHIPはHGT検出のためにベストマッチと系統発生アプローチの両方を使用する(上記参照)。 その入力は、メタゲノムデータおよびそれらの分類学的分類に由来する一組のゲノムまたはゲノムビンの配列ファイルである。 系統学的に較正されたゲノム分類データベース(GTDB)[ref.18]に基づく最近開発されたGTDB-Tkツール[ref.17]は、入力ゲノムの分類の分類に推奨されている。 入力ゲノムは、最初にユーザー指定のランク(e.g. class, order, family or genus)でそれらの分類に従いMetaCHIPによって分類される。(以下略)

 

f:id:kazumaxneo:20190311203522p:plain

Fig.1 Workflow of MetaCHIP.  論文より転載

 

manual

https://github.com/songweizhi/MetaCHIP/blob/master/manual/MetaCHIP_User_Manual_v1.1.10.pdf

 

インストール

ubuntu16.04のminiconda3-4.3.21環境(python 3.6.1)でテストした(docker使用、ホストOS mac os10.14)。

依存

Python libraries

R packages

  • optparse: command line option parser in R.
  • ape: package for analyses of phylogenetics and evolution in R.
  • circlize: package for circular visualization.

 Third-party software

MetaCHIP makes use of the following 3rd party dependencies and assumes these are on your system path. Specify full path to their executables in the config file if they are not on the system path.

  • Prodigal: protein-coding gene prediction tool for prokaryotic genomes.
  • HMMER: tool for biosequence analysis using profile hidden Markov models.
  • MAFFT: multiple sequences alignment program.
  • FastTree: tool for inferring phylogenies from alignments .
  • BLAST+: you know what it is!
  • Ranger-DTL 2.0: software for inferring gene family evolution.

本体 Github

 

pip install MetaCHIP

進捗log

Successfully built MetaCHIP ete3 subprocess32

Installing collected packages: numpy, biopython, python-dateutil, pytz, backports.functools-lru-cache, cycler, subprocess32, kiwisolver, matplotlib, scipy, pillow, reportlab, ete3, MetaCHIP

Successfully installed MetaCHIP-1.1.10 backports.functools-lru-cache-1.5 biopython-1.73 cycler-0.10.0 ete3-3.1.1 kiwisolver-1.0.1 matplotlib-2.2.4 numpy-1.16.2 pillow-5.4.1 python-dateutil-2.8.0 pytz-2018.9 reportlab-3.5.13 scipy-1.2.1 subprocess32-3.5.3

ヘルプ

> MetaCHIP -h

$ MetaCHIP -h

 

        ...::: MetaCHIP v1.1.10 :::...

        

    HGT detection modules:

       PI      ->      Prepare Input files 

       BM      ->      Best-Match approach 

       PG      ->      PhyloGenetic approach

 

    # for command specific help

    MetaCHIP PI -h

    MetaCHIP BM -h

    MetaCHIP PG -h

 

    

kazu@b1a29c465ac7:/bin$ 

> MetaCHIP PI -h

$ MetaCHIP PI -h

usage: MetaCHIP PI [-h] -i I [-taxon TAXON] -p P [-r R] [-g G] [-x X]

                   [-grouping_only] [-nonmeta] [-noblast] [-t T] [-qsub]

                   [-force] [-quiet]

 

Prepare input files

 

optional arguments:

  -h, --help      show this help message and exit

  -i I            input genome folder

  -taxon TAXON    taxonomic classification

  -p P            output prefix

  -r R            grouping rank

  -g G            grouping file

  -x X            file extension

  -grouping_only  run grouping only, deactivate Prodigal and Blastn

  -nonmeta        annotate Non-metagenome-assembled genomes (Non-MAGs)

  -noblast        not run all-vs-all blastn

  -t T            number of threads, default: 1

  -qsub           run blastn with job scripts, only for HPC users

  -force          overwrite previous results

  -quiet          not report progress

 

Example: MetaCHIP PI -h

> MetaCHIP BM -h

$ MetaCHIP BM -h

usage: MetaCHIP BM [-h] -p P [-r R] [-g G] [-cov COV] [-al AL] [-flk FLK]

                   [-ip IP] [-ei EI] [-t T] [-plot_iden] [-NoEbCheck] [-force]

                   [-quiet] [-tmp]

 

Best-match approach

 

optional arguments:

  -h, --help  show this help message and exit

  -p P        output prefix

  -r R        grouping rank

  -g G        grouping file

  -cov COV    coverage cutoff, default: 75

  -al AL      alignment length cutoff, default: 200

  -flk FLK    the length of flanking sequences to plot (Kbp), default: 10

  -ip IP      identity percentile cutoff, default: 90

  -ei EI      end match identity cutoff, default: 95

  -t T        number of threads, default: 1

  -plot_iden  plot identity distribution

  -NoEbCheck  disable end break and contig match check for fast processing,

              not recommend for metagenome-assembled genomes (MAGs)

  -force      overwrite previous results

  -quiet      Do not report progress

  -tmp        keep temporary files

 

Example: MetaCHIP BM -h

MetaCHIP PG -h

$ MetaCHIP PG -h

usage: MetaCHIP PG [-h] -p P [-r R] [-g G] [-cov COV] [-al AL] [-flk FLK]

                   [-ip IP] [-ei EI] [-t T] [-force] [-quiet]

 

Phylogenetic approach

 

optional arguments:

  -h, --help  show this help message and exit

  -p P        output prefix

  -r R        grouping rank

  -g G        grouping file

  -cov COV    coverage cutoff, default: 75

  -al AL      alignment length cutoff, default: 200

  -flk FLK    the length of flanking sequences to plot (Kbp), default: 10

  -ip IP      identity percentile, default: 90

  -ei EI      end match identity cutoff, default: 95

  -t T        number of threads, default: 1

  -force      overwrite previous results

  -quiet      Do not report progress

 

Example: MetaCHIP PG -h

dockerイメージも上げておきます。

docker pull kazumax/metachip 

#ホストのカレントディレクトリとイメージの/dataをシェアして起動(pullを飛ばして以下を実行してもOK)
docker run -itv $PWD:/data/ -w /root/MetaCHIP kazumax/metachip

> source ~/.profile
> MetaCHIP PG -h

 

実行方法

調べたい全てのゲノムのfastaファイルが入ったディレクトリを指定して実行する。

テストディレクトリの中身。ラン時はfastaファイルのprefixを-xで指定する(e.g., -x fasta)。

f:id:kazumaxneo:20190316214801p:plain

ランにはfastaの他にbinsにtaxonomic情報をアサインしたTSVファイルも必要になる。GTDB-Tk(github)を使うことが推奨されている。テストランのhuman_gut_bins_GTDB.tsvの中身。

f:id:kazumaxneo:20190316221427p:plain

 

 

1、MetaCHIP PI

準備

MetaCHIP PI -i human_gut_bins -x fasta -taxon human_gut_bins_GTDB.tsv -r c -p Soil -t 8

出力解説(githubより)

Output files:
1. Grouping result is exported to [prefix]_grouping_[taxon_rank][group_num].txt.
2. Gene calling results in GenBank and FASTA format.
3. A SCG protein tree of input genomes.
4. A bar plot shows the number of input genomes in each group at provided taxonomic rank.
5. Blast results

1の出力ディレクトリを-p Soilと指定すると、"Soil_MetaCHIP_wd"ディレクトリができる。以降のコマンドは"Soil"だけ指定すれば認識する。

出力ディレクト

f:id:kazumaxneo:20190316214426p:plain

f:id:kazumaxneo:20190316214659p:plain

 

2、MetaCHIP BM

ベストマッチアプローチでHGT検出

MetaCHIP BM -p Soil -r c -t 8

結果は1の出力に追加される。

f:id:kazumaxneo:20190316213529p:plain

> cat Soil_MetaCHIP_wd/Soil_c5_HGTs_ip90_al200bp_c75_ei90bp_f10kbp/Soil_c5_HGTs_BM.txt

$ cat Soil_MetaCHIP_wd/Soil_c5_HGTs_ip90_al200bp_c75_ei90bp_f10kbp/Soil_c5_HGTs_BM.txt

Gene_1 Gene_2 Gene_1_group Gene_2_group Identity end_match full_length_match

bin15_01531 bin96_00912 A C 72.587 no no

bin30_00569 bin829_00466 A E 66.221 no no

> cat Soil_MetaCHIP_wd/Soil_c5_HGTs_ip90_al200bp_c75_ei90bp_f10kbp/Soil_c5_HGTs_BM_aa.fasta

$ cat Soil_MetaCHIP_wd/Soil_c5_HGTs_ip90_al200bp_c75_ei90bp_f10kbp/Soil_c5_HGTs_BM_aa.fasta 

>bin15_01531

MSYVDEVLAYVVAKNPAQPEFHQAVKEVLESLRVVIEANEEEYRKDALLERLITPERVIM

FRVPWVDDKGNVQVNNGFRVQFNSAIGPYKGGLRFHPSVNLGIIKFLGFEQIFKNSLTGL

PIGGGKGGSDFDPKGKSDREVMAFCQSFMTELCKHIGADTDVPAGDIGVGGREIGFLYGQ

YKRIRNLYEGVLTGKGLTYGGSLARTEATGYGLLYLTEEMLKCNGKDIAGKTIAVSGSGN

VAIYAIQKAQQLGAKPVTCSDSTGWVYDPEGIDVALLKEVKEVHRARLTEYAAKRPSAEY

HDKATEGTNQWSVKVDIALPCATQNELNIDDAKALVANGVFAVAEGANMPTTLEATEYFQ

NNGILFCPGKASNAGGVATSALEMSQNSERLSWTFEEVDSKLKNIMVNIFHNLDDASKKY

GMEGNYVAGANIAGFLKVAEAMKAQGIV*

>bin30_00569

VRGFIRSVPKRRLKMSYIDEVLNRTTTRYDYQPEFCQAVTEVLKSIEPAVERNPQYQKAA

LLERLVAPEKATVFRVPWVDDNGTVHVNRGYRVQFNSAIGPYKGGLRFHPSVNMSIIKFL

GFEQTFKNSLTGLPIGGGKGGSDFDPKGKSDYEIMRFCQCFMTELYKVIGPNSDVPAGDI

GVGGREIGYLFGQYKKITGRHEGVLTGKGLSYGGSLARTEATGYGLIYLVEEMLKNHGNS

IEGKTVAVSGSGNVAIYAIEKAQMFGAKVVTASDSSGYVYDKDGIDIALLKQVKEQERAR

IVRYTELKPTAKFVPGKRVWEVPCDVALPCATQNELSLDDAKELIKNGCIAVGEGANMPS

TIDATNAFLQSKVLFAPAKAANAGGVATSALEMSQNSARMIWTFDEVDEKLKDIMESIYG

HMANAAKEYSTPDDFVAGANIAGFLKVADAMMAQGIV*

>bin829_00466

VAVPLGRLGRILVDGLHDLLQLGVDLLEGPGEPCGVLAHLEGGGGDTSGVGGLGGCEEDS

RRLVLGDGLGGGGHVCSLSDRVASVLDQDLGGLLVDLVLGRAGECDVAGDGPDAVAALGV

LGVLSEVVVEVGLYPVPLLLLDELEVPVVDTVVVLDVSVGVGDRDDLGSELGGLLAGVDG

DVSGSGDDDLLSLEGLAVGLQHLVDEVAETVSGGLGPGEGSAGADGLSGQDAGELVSEPL

VLTEHVSDLPSAGTDVSCGDVGVGTDVSEELGHEGLAEAHDLVVGLALGVEVGSSFSSSD

GEGGEAVLEDLLETEEFQDGQVDGGVQPESSLVGSDRRVELDAVSAVDLDLSVVVHPGHA

EHDDPLGFNEPLDDSVLLDLGAGLDDGLQGDEDFLDGLEELGLVCVALFQTVVDGFQVLV

VDCHHKCLKDLLTFVYCR*

>bin96_00912

MSYVDDVIELTVKQNPSEPEFHQAVKEVLESLRVVIEANEEEYKKNALLERLVNPERQLK

FRVPWVDDNGQVQVNTGYRVQFNSAIGPYKGGLRFHPSVNVGIIKFLGFEQIFKNSLTGL

AIGGGKGGSDFDPKGKSDREIMAFCQSFMTELFKYIGADTDVPAGDIGVGGREIGFLYGQ

YKRIRGLSEGVLTGKALSYGGSLARTEATGYGLLYFTDAMLKANDIDIKGKTIAVSGAGN

VAIYAIEKAQQLGGNPVTCSDSTGWIYDPEGIDVELLKEVKEVKRARLTEYAEARPSAEY

HEGKGVWSVKCDIALPCATQNELLLDDAKQLVANGVVAVAEGANMPTSIEATEYLQDNDV

LFGPGKASNAGGVATSALEMAQNSQRLSWDFDKVDKRLKVIMENIFANVDEAAKTYGFEK

NYVVGANIAGFEKVVDAMNAQGIV*

HGT候補のDNA配列も出力される。

f:id:kazumaxneo:20190316222535p:plain

 

3、MetaCHIP PG

PhyloGenetic approachでHGT検出。BMとPGを最後に比較するため2を先に実行しておく必要がある。

MetaCHIP PG -p Soil -r c -t 8

結果は1、2の出力に追加される。

f:id:kazumaxneo:20190317123201p:plain

BMのランと同様にPG候補のDNA配列と予測コード領域のアミノ酸配列も出力される。

まとめ

f:id:kazumaxneo:20190316221023p:plain

f:id:kazumaxneo:20190316221238p:plain

f:id:kazumaxneo:20190316221221p:plain

f:id:kazumaxneo:20190316221302p:plain

 

引用

MetaCHIP: community-level horizontal gene transfer identification through the combination of best-match and explicit phylogenetic tree approaches

Weizhi Song, Bernd Wemheuer, Shan Zhang, Kerrin Steensen, Torsten Thomas

Microbiome 2019 7:36