2019 2/9 タイトル誤字修正
Horizontal gene transfer (HGT) は、微生物の進化と適応における重要な力として認識されている(Soucy、Huang&Gogarten、2015)。単離された微生物のドラフトまたはフィニッシュしたゲノム中のHGTを同定する多数のパイプラインが開発されている(Adato et al、2015; Hasan et al、2012; Podell&Gaasterland、2007; Ravenhall et al、2015; Trappe、Marschall& Renard、2016; Zhu、Kosoy&Dittmar、2014)。近年、メタゲノムアプローチの開発と応用により、未培養微生物のゲノム組成に関する新規かつ膨大な量の情報が提供されてきた(Thomas、Gilbert&Meyer、2012)。これは微生物群集のレベルでHGTを研究する機会を提供するが、メタゲノムデータセット内のHGTイベントを確実に検出するために新しいバイオインフォマティクスツールとパイプラインを開発する必要がある。メタゲノミクスリードのシミュレーションは、メタゲノムデータのクオリティ管理、アセンブリ、およびアノテーションのパイプライン開発およびベンチマークに不可欠だった(Peng et al、2012; Kang et al、2015)。これらのシミュレーションツールは、典型的には、ユーザー定義の存在量分布を有する定義されたリファレンスゲノムセットに基づき、そして現実的なエラーモデルを考慮した一般的なシーケンシングテクノロジーのリードを生成する(Escalona、Rocha&Posada、2016)。しかしながら、現在のシミュレーションツールは、シミュレートされた微生物群集データ内に定義されたHGTを導入するオプションを提供していないため、HGT検出を目的とするパイプラインをテストすることができない。この論文では、微生物群集のゲノム間のHGTをシミュレートできるHgtSIMと呼ばれるパイプラインを開発した。パイプラインは、ドナーおよびレシピエントゲノムに見られる導入遺伝子について異なる程度の類似性を有するHGTをシミュレートすることができ、したがって比較的最近または過去のHGT検出を評価することを可能にする。
レシピエントゲノムへの遺伝子伝達は、進化的ドリフトまたは新しいゲノム状況への適応を反映するその後の変異を含むことが多い(例えば、tRNAの利用可能性に一致するようにコドン使用頻度を変更する)。読み枠を乱すことなくそのような突然変異をシミュレートし、そして突然変異を定義された範囲に限定するために、突然変異の単位としてコドンを使用する。コドンの突然変異は4つのカテゴリー(Ci)に分類された。(1)1塩基のサイレント突然変異。 (2)一塩基の非サイレント突然変異。 (3)2塩基変異および(4)3塩基変異(論文表1)。
ランダム突然変異をシミュレートするためのアルゴリズムは次のとおり。
- 伝搬する各遺伝子の長さ(L)を取得する。
- ユーザ定義の識別値(I)およびLに基づいて変更する必要がある塩基の数(N)を定義する。すなわち N = LI / 100
- Nと4つの突然変異カテゴリのユーザー定義の比率に基づいて突然変異の種類を定義する。たとえば、C1:C2:C3:C4に1:1:1:1の比率が指定されている場合、N = C1 + C2 + 2C3 + 3C4となる。
- C1、C2、C3およびC4コドンを無作為に選択して、対応する突然変異を実行する。
すべての変更されたヌクレオチドは突然変異レポートファイルに記録される。アミノ酸配列間のBlastPに基づく比較もまた提供される。
Githubより転載
インストール
mac os10.12のpython3.5.1環境でテストした。
依存
- BioPython
- BLAST+
pip3 install HgtSIM
> HgtSIM -h
$ HgtSIM -h
usage: HgtSIM [-h] [-p P] -t T [-i I] -d D -f F [-r R] [-x X] [-lf LF]
[-rf RF] [-mixed MIXED] [-keep_cds] [-a A] [-l L]
[-blastn BLASTN] [-blastp BLASTP] [-quiet]
optional arguments:
-h, --help show this help message and exit
-p P output prefix
-t T sequences of genes to be transferred (multi-fasta format)
-i I mutation level
-d D distribution of transfers to the recipient genomes
-f F folder holds recipient genomes
-r R ratio of mutation types
-x X file extension of recipient genomes
-lf LF left end flanking sequences
-rf RF right end flanking sequences
-mixed MIXED randomly assign mutation levels between specified values,
parameter format: min-max
-keep_cds insert transfers only to non-coding regions, need the
annotation files (in gbk format) of recipient genomes
-a A folder holds the annotation files (in gbk format) of
recipient genomes
-l L the minimum length of intergenic regions to be considered
for insertion
-blastn BLASTN path to blastn executable, default: blastn
-blastp BLASTP path to blastp executable, default: blastp
-quiet not report progress
実行方法
遺伝子伝搬先の全てのゲノムファイルをディレクトリに用意する(1ファイル1ゲノム)。また、導入する遺伝子のmuliti-fastaファイルと、どの遺伝子をどのゲノムに導入するか指定したファイル(distribution.txt)を準備する(下記参照)。変異率は10%とする。変異の種類は上の説明にもあるように、4カテゴリで指定する。例えばC1:C2:C3:C4=1:0:1:1なら-r 1-0-1-1。
HgtSIM -t genes.fasta -d distribution.txt -f input_genomes -r 1-0-1-1 -x fna -i 10
- -f folder holds recipient genomes
-
-t sequences of genes to be transferred (multi-fasta format)
-
-i mutation level
- -d distribution of transfers to the recipient genomes
- -r ratio of mutation types
- -x file extension of recipient genomes
distribution.txtについて
Githubで説明されているように、1カラム目はターゲットゲノム、2カラム目以降に導入する遺伝子を記載する。
BAD,AAM_03063,AKV_01007,AMAC_01196,AMAU_02632,AMS_01785
BDS,AAM_00175,AKV_00943,AMAC_00215,AMAU_02085,AMS_01465
BGC,AAM_00176,AKV_01272,AMAC_01576,AMAU_00617,AMS_02653
mixedモードにすると、変異率は指定の範囲内でランダムに決定される。5-25%に設定。
HgtSIM -t genes.fasta -d distribution.txt -f input_genomes -r 1-0-1-1 -x fna -mixed 5-25
- -mixed randomly assign mutation levels between specified values, parameter format: min-max-mixed randomly assign mutation levels between specified values, parameter format: min-max.
伝搬遺伝子に隣接して余分な配列(flanking sequences)も導入できます(-lfと-rfで指定)。詳細はGIthubを参照してください。
引用
HgtSIM: a simulator for horizontal gene transfer (HGT) in microbial communities
Weizhi Song, Kerrin Steensen, Torsten Thomas
PeerJ. 2017 Nov 8;5:e4015