macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

パンゲノムに基づくゲノムアイランド予測およびその多様性探索のための手法 panRGP

 

 

 原核生物ゲノムの可変性の主な原因は、遺伝子の水平移動(HGT)である。ゲノム可塑性領域(RGP)は、非常に可変性の高いゲノム領域に位置する遺伝子のクラスターである。その多くは、HGTによって生じたもので、ゲノムアイランド(GI)に相当する。これらの領域を種レベルで研究することは、ゲノムのデータの氾濫に伴い、ますます困難になってきている。現在までのところ、数百のゲノムを用いてGIを同定し、その多様性を探る手法は存在しない。 著者らは、ある種の利用可能な全ゲノムからなるパンゲノムグラフを用いてRGPを予測するpanRGP法をここに発表する。これにより、RGPの多様性にアクセスし、挿入箇所を予測するために、数千のゲノムを研究することができる。他のGI検出ツールと共にリファレンスデータセットに対してベンチマークを行ったところ、最も優れた予測結果を得ることができた。さらに、大腸菌のインサーションスポットとしてよく研究されているleuX tRNAホットスポットの境界を再定義することで、メタゲノムアセンブリでの使用を説明した。panRPGは、GIとスポットを予測するためのスケーラブルで信頼できるツールであり、大規模比較研究に最適なアプローチとなる。本研究で紹介した方法は、以下のソフトウェアで利用できる: https://github.com/labgem/PPanGGOLiN。詳細な結果とベンチマークメトリクスを計算するスクリプトは、https://github.com/axbazin/panrgp_supdata で入手できる。

 

GIの特徴は、サイズが大きいこと(10KB以上)、染色体の他の部分と比較してG+Cの含有量が通常異なること、トランスポゾン、インテグロン、統合的結合要素、プロファージなどの移動要素にしばしば関連していることである。多くのGI挿入部位はtRNAをコードする遺伝子と関連しており、リピート構造を挟んでいる。それらの挿入部位の一部はホットスポットと呼ばれ、新要素の獲得率がゲノムの他の部分よりも活発で、近縁の個体間でもはるかに多様な遺伝子内容を持つ傾向がある。

(一部省略)
現在、微生物ゲノムの洪水は公共データバンクで利用可能であり、Genbankには50万以上の原核生物ゲノムがある。それと並行して、メタゲノムアセンブリゲノム(MAG)やシングルセルアセンブリゲノムからなる環境データも飛躍的に増加している。したがって、数百から数千のゲノムを対象とした比較ゲノム研究を行うことが課題となっており、解析のために集中的な計算を必要とする数百万のペアワイズ比較につながることがある。このような不完全で断片的なゲノムの中からGIを正確に特定することは、生物種内の多様性を全体的に把握する上で極めて重要となってきている。
この課題に取り組むには、パンゲノムに基づく方法が有効である可能性がある。パンゲノムとは、ある分類群の全遺伝子レパートリーに相当する概念である。パンゲノムは、全個体に共通する遺伝子を含むコアゲノムと、それ以外の遺伝子を集めたバリアブルゲノムという2つの要素で表現されることがある。最近、パンゲノムの構造を研究し、数百のゲノムの比較研究を行うための複数の手法が開発されている。その中でもPPanGGOLiNは、全ゲノムの全遺伝子を、ノードが遺伝子ファミリー、エッジがゲノム近傍を表すパンゲノムグラフで表現することを提案している(Gautreau et al.、2020)。遺伝子ファミリーの有無の情報とパンゲノムグラフのトポロジーを組み合わせた統計モデルを用いて、遺伝子ファミリーを以下の3つのパーティションに分類する: (i)持続(persistent)ゲノム:研究対象のクレードのほとんどの個体に存在する遺伝子、(ii)シェルゲノム:グループの一部の個体間で保存されているが大部分は保存されていない遺伝子、(iii)クラウドゲノム:集団内で稀で1つか数個体にのみ存在する遺伝子に対応する。シェルゲノムとクラウドゲノムは、可変性ゲノムを分割したものである。persistentゲノムは概念的にはコアゲノムに似ているが、時間的な進化的損失イベントや、アセンブリや遺伝子呼び出しのアーティファクトなどの技術的理由による遺伝子の欠損を許容するため、大規模ゲノム比較により適している(Gautreau et al.、2020)。
ゲノムに含まれる遺伝子の多くは垂直以外の起源を持ち、GIやプラスミドに含まれることが予想される。ここでは、ゲノム可塑性領域(RGP)という概念を用いて、シェルゲノムとクラウドゲノムからなる領域を指すことにする。RGPは、ほとんどがGIやプラスミドで構成されていると考えられる。また、ゲノムが大幅に減少した場合、一部の個体で失われた領域がシェルゲノムに含まれ、RGPとみなされる可能性がある。GIはこれまでパンゲノムの範囲で研究され、異なる種の可変ゲノムのほとんどを含むことが示されたが、今のところパンゲノムの概念を使って予測する手法はない。
集団におけるGIの進化を研究するためには、パンゲノム内のインサーションスポットに注目することが興味深いと思われる。インサーションスポットという名称は、以前、同じコア遺伝子の間に位置する複数の個体の可変ゲノムを説明するために使用された(Lescat et al., 2009; Oliveira et al., 2017)。関連する概念は、柔軟なGI群である柔軟なゲノム領域という名称で文献に見ることができ、この用語はもともと、同じコア遺伝子の間に位置し、同様の機能に関与する異なる個体の可変ゲノムを表現するために使用されていた(Rodriguez-Valera and Ussery, 2012)。本稿では、スポットという用語を使用し、同じスポットにある遺伝子が関連した機能を持つとは考えないことにする。
本稿では、RGPを検出し、インサーションスポットに集めてGIの動態を研究するpanRGPという新しい手法を提案する。これは、同一種の数百から数千のゲノムから再構成されたパンゲノムグラフを用いる比較ゲノムに基づく手法である。GIに関する既発表のデータセット(Langille et al., 2008)に対して、他のツールの選択とともにpanRGPをベンチマークした。最後に、Escherichia coliのインサーションスポットの解析の文脈で、MAGのような不完全で断片化したゲノムでの使用を説明した。

wiki

https://github.com/labgem/PPanGGOLiN/wiki/Regions-of-Genome-Plasticity#rgp

 

インストール

本体 Github

#bioconda (link)
mamba create -n ppanggolin-env -y
conda activate ppanggolin-env
mamba install -c bioconda ppanggolin -y

> ppanggolin panrgp -h

usage: ppanggolin panrgp [-h] [--fasta FASTA] [--anno ANNO]

                         [--clusters CLUSTERS] [-o OUTPUT]

                         [--basename BASENAME] [--rarefaction]

                         [-K NB_OF_PARTITIONS] [--no_defrag] [--tmpdir TMPDIR]

                         [--verbose {0,1,2}] [--log LOG] [-d] [-c CPU] [-f]

 

Input arguments:

  The possible input arguments :

 

  --fasta FASTA         A tab-separated file listing the organism names, and

                        the fasta filepath of its genomic sequence(s) (the

                        fastas can be compressed). One line per organism. This

                        option can be used alone. (default: None)

  --anno ANNO           A tab-separated file listing the organism names, and

                        the gff filepath of its annotations (the gffs can be

                        compressed). One line per organism. This option can be

                        used alone IF the fasta sequences are in the gff

                        files, otherwise --fasta needs to be used. (default:

                        None)

  --clusters CLUSTERS   a tab-separated file listing the cluster names, the

                        gene IDs, and optionally whether they are a fragment

                        or not. (default: None)

 

Optional arguments:

  -o OUTPUT, --output OUTPUT

                        Output directory (default: ppanggolin_output_DATE2023-

                        03-27_HOUR01.56.12_PID552544)

  --basename BASENAME   basename for the output file (default: pangenome)

  --rarefaction         Use to compute the rarefaction curves (WARNING: can be

                        time consuming) (default: False)

  -K NB_OF_PARTITIONS, --nb_of_partitions NB_OF_PARTITIONS

                        Number of partitions to use. Must be at least 2. If

                        under 2, it will be detected automatically. (default:

                        -1)

  --no_defrag           DO NOT Realign gene families to link fragments with

                        their non-fragmented gene family. (default: False)

 

Common arguments:

  -h, --help            show this help message and exit

  --tmpdir TMPDIR       directory for storing temporary files (default: /tmp)

  --verbose {0,1,2}     Indicate verbose level (0 for warning and errors only,

                        1 for info, 2 for debug) (default: 1)

  --log LOG             log output file (default: stdout)

  -d, --disable_prog_bar

                        disables the progress bars (default: False)

  -c CPU, --cpu CPU     Number of available cpus (default: 1)

  -f, --force           Force writing in output directory and in pangenome

                        output file. (default: False)

 

 

 

テストラン

ランにはゲノムのテキストファイルを指定する必要がある。テキストファイルの最初のカラムにはユニークな生物名、2 番目の列には関連する FASTA ファイルのパスが含まれている必要がある。

テキストファイルを指定して実行。ゲノムアイランドを予測し、それらをインサーションスポットでクラスタリングする。ここでは1コマンドで実行できるeasy workflowモジュールのpanrgpサブコマンドを使うが、通常通りパンゲノム解析を行い、結果のHDF5からrgpサブコマンドとで予測を行うこともできる。spotサブコマンドを使うとインサーションスポットを書き出すことができる。

git clone https://github.com/labgem/PPanGGOLiN.git
cd PPanGGOLiN/testingDataset/
ppanggolin panrgp --fasta organisms.fasta.list --cpu 12

テストランは20秒ほどで終了した。

 

出力例

spot.html

spot.tsv

summarize_spots.tsv

spot_identical_rgps.tsv

出力について

 

レポジトリより

  • 従来のコアゲノム/アクセサリゲノムのパラダイムでパンゲノミクス解析を行うには、一般的に最低5ゲノムが必要とされる。
  • PPanGGOLiNの統計的アプローチで確実な結果を得るためには、ゲノム変異(SNPsのみならず)を持つ少なくとも15ゲノムを使用することが推奨される。

 

引用

panRGP: a pangenome-based method to predict genomic islands and explore their diversity

Adelme Bazin, Guillaume Gautreau, Claudine Médigue, David Vallenet, Alexandra Calteau

Bioinformatics. 2020 Dec 30;36(Suppl_2):i651-i658

 

関連