macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

遺伝子水平伝播をシミュレートする HgtSIM

2019 2/9 タイトル誤字修正

 

 Horizontal gene transfer (HGT) は、微生物の進化と適応における重要な力として認識されている(Soucy、Huang&Gogarten、2015)。単離された微生物のドラフトまたはフィニッシュしたゲノム中のHGTを同定する多数のパイプラインが開発されている(Adato et al、2015; Hasan et al、2012; Podell&Gaasterland、2007; Ravenhall et al、2015; Trappe、Marschall& Renard、2016; Zhu、Kosoy&Dittmar、2014)。近年、メタゲノムアプローチの開発と応用により、未培養微生物のゲノム組成に関する新規かつ膨大な量の情報が提供されてきた(Thomas、Gilbert&Meyer、2012)。これは微生物群集のレベルでHGTを研究する機会を提供するが、メタゲノムデータセット内のHGTイベントを確実に検出するために新しいバイオインフォマティクスツールとパイプラインを開発する必要がある。メタゲノミクスリードのシミュレーションは、メタゲノムデータのクオリティ管理、アセンブリ、およびアノテーションのパイプライン開発およびベンチマークに不可欠だった(Peng et al、2012; Kang et al、2015)。これらのシミュレーションツールは、典型的には、ユーザー定義の存在量分布を有する定義されたリファレンスゲノムセットに基づき、そして現実的なエラーモデルを考慮した一般的なシーケンシングテクノロジーのリードを生成する(Escalona、Rocha&Posada、2016)。しかしながら、現在のシミュレーションツールは、シミュレートされた微生物群集データ内に定義されたHGTを導入するオプションを提供していないため、HGT検出を目的とするパイプラインをテストすることができない。この論文では、微生物群集のゲノム間のHGTをシミュレートできるHgtSIMと呼ばれるパイプラインを開発した。パイプラインは、ドナーおよびレシピエントゲノムに見られる導入遺伝子について異なる程度の類似性を有するHGTをシミュレートすることができ、したがって比較的最近または過去のHGT検出を評価することを可能にする。

レシピエントゲノムへの遺伝子伝達は、進化的ドリフトまたは新しいゲノム状況への適応を反映するその後の変異を含むことが多い(例えば、tRNAの利用可能性に一致するようにコドン使用頻度を変更する)。読み枠を乱すことなくそのような突然変異をシミュレートし、そして突然変異を定義された範囲に限定するために、突然変異の単位としてコドンを使用する。コドンの突然変異は4つのカテゴリー(Ci)に分類された。(1)1塩基のサイレント突然変異。 (2)一塩基の非サイレント突然変異。 (3)2塩基変異および(4)3塩基変異(論文表1)。

ランダム突然変異をシミュレートするためのアルゴリズムは次のとおり。

  1. 伝搬する各遺伝子の長さ(L)を取得する。
  2. ユーザ定義の識別値(I)およびLに基づいて変更する必要がある塩基の数(N)を定義する。すなわち N = LI / 100
  3. Nと4つの突然変異カテゴリのユーザー定義の比率に基づいて突然変異の種類を定義する。たとえば、C1:C2:C3:C4に1:1:1:1の比率が指定されている場合、N = C1 + C2 + 2C3 + 3C4となる。
  4. C1、C2、C3およびC4コドンを無作為に選択して、対応する突然変異を実行する。

すべての変更されたヌクレオチドは突然変異レポートファイルに記録される。アミノ酸配列間のBlastPに基づく比較もまた提供される。

 

f:id:kazumaxneo:20190130222753p:plain

Githubより転載 

 

インストール

mac os10.12のpython3.5.1環境でテストした。

依存

  • BioPython
  • BLAST+

本体 Github

pip3 install HgtSIM

 > HgtSIM -h

$ HgtSIM -h

usage: HgtSIM [-h] [-p P] -t T [-i I] -d D -f F [-r R] [-x X] [-lf LF]

              [-rf RF] [-mixed MIXED] [-keep_cds] [-a A] [-l L]

              [-blastn BLASTN] [-blastp BLASTP] [-quiet]

 

optional arguments:

  -h, --help      show this help message and exit

  -p P            output prefix

  -t T            sequences of genes to be transferred (multi-fasta format)

  -i I            mutation level

  -d D            distribution of transfers to the recipient genomes

  -f F            folder holds recipient genomes

  -r R            ratio of mutation types

  -x X            file extension of recipient genomes

  -lf LF          left end flanking sequences

  -rf RF          right end flanking sequences

  -mixed MIXED    randomly assign mutation levels between specified values,

                  parameter format: min-max

  -keep_cds       insert transfers only to non-coding regions, need the

                  annotation files (in gbk format) of recipient genomes

  -a A            folder holds the annotation files (in gbk format) of

                  recipient genomes

  -l L            the minimum length of intergenic regions to be considered

                  for insertion

  -blastn BLASTN  path to blastn executable, default: blastn

  -blastp BLASTP  path to blastp executable, default: blastp

  -quiet          not report progress

 

 

実行方法

遺伝子伝搬先の全てのゲノムファイルをディレクトリに用意する(1ファイル1ゲノム)。また、導入する遺伝子のmuliti-fastaファイルと、どの遺伝子をどのゲノムに導入するか指定したファイル(distribution.txt)を準備する(下記参照)。変異率は10%とする。変異の種類は上の説明にもあるように、4カテゴリで指定する。例えばC1:C2:C3:C4=1:0:1:1なら-r 1-0-1-1。

HgtSIM -t genes.fasta -d distribution.txt -f input_genomes -r 1-0-1-1 -x fna -i 10

 

  • -f        folder holds recipient genomes
  • -t   sequences of genes to be transferred (multi-fasta format)

  • -i        mutation level

  • -d       distribution of transfers to the recipient genomes
  • -r        ratio of mutation types
  • -x       file extension of recipient genomes

distribution.txtについて

Githubで説明されているように、1カラム目はターゲットゲノム、2カラム目以降に導入する遺伝子を記載する。

BAD,AAM_03063,AKV_01007,AMAC_01196,AMAU_02632,AMS_01785
BDS,AAM_00175,AKV_00943,AMAC_00215,AMAU_02085,AMS_01465
BGC,AAM_00176,AKV_01272,AMAC_01576,AMAU_00617,AMS_02653

 

mixedモードにすると、変異率は指定の範囲内でランダムに決定される。5-25%に設定。

HgtSIM -t genes.fasta -d distribution.txt -f input_genomes -r 1-0-1-1 -x fna -mixed 5-25
  • -mixed    randomly assign mutation levels between specified values, parameter format: min-max-mixed randomly assign mutation levels between specified values, parameter format: min-max.

 

伝搬遺伝子に隣接して余分な配列(flanking sequences)も導入できます(-lfと-rfで指定)。詳細はGIthubを参照してください。

引用

HgtSIM: a simulator for horizontal gene transfer (HGT) in microbial communities

Weizhi Song, Kerrin Steensen, Torsten Thomas​

PeerJ. 2017 Nov 8;5:e4015