macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

シュードゲノムのシミューレーター Simulome

 

Simulomeは2017年に発表されたbacteria向けの遺伝子のシミュレートツールである。gene情報を与えることで、標準では一部の遺伝子に限定してシミュレートする。具体的には、遺伝子の長さの分布を調べ、その平均と標準偏差から遺伝子のサンプリングをお行い、サンプリングされた遺伝子のみ出力してpseudo-genomeを作成する。このとき、SNPsやindelのフラグをつけることで、指向的な変異を導入することが可能になっている。また、単純にゲノム全体を(変異を入れて)シミュレートすることも可能である。

 

 wiki

https://github.com/price0416/Simulome/wiki

マニュアル

ダウンロードしたフォルダにマニュアルPDFが含まれている。

ダウンロード

依存

  • Python 2.7.2
  • Biopython 1.6.1+
  • BLAST 2.3.0+ 

Github

GitHub - price0416/Simulome: Simulome, genome and mutant variant simulator.

 

実行方法

sample_dataディレクトリのデータを使いテストランを行う。500遺伝子サンプリングしてpusedo-genomeを作成する。1遺伝子につき10のSNPsを導入する。

python2.7 simulome.py --genome=sample_data/ecoli_genome.fasta --anno=sample_data/ecoli_anno.gtf --output=ecoli_simulation -- num_genes=500 --snp=TRUE --num_snp=10
  • --genome= File representing genome. FASTA nucleotide format.
  • --anno= File containing genome annotation information in GTF/GFF3 format.
  • --output= Creates a folder named with the supplied prefix containing output files.
  • --num_snp= The number of SNPs to simulate per gene. This argument is required for SNP run mode.

全ゲノムのシミュレートは--num_snpフラグは除き、--whole_genome TRUEをつける。

 

 

500遺伝子サンプリングしてpusedo-genomeを作成する。1遺伝子につき、1つの100-bp挿入を導入する。

python2.7 simulome.py --genome=sample_data/ecoli_genome.fasta --anno=sample_data/ecoli_anno.gtf --output=ecoli_simulation -- num_genes=500 --snp=TRUE --num_snp=10 --indel 3 --ins_len=100
  • --indel File representing genome. FASTA nucleotide format.

 Possible values are:

  1 = Insertions only.

  2 = Deletions only.

  3 = Both insertions and deletions.

  • --ins_len= Length of insertion events. Required for insertion mode.

 

Synonymous mutationとnonsynonymous mutationsの指定してアミノ酸変化を起こす塩基置換の割合を指定したり、duplication eventを導入したりできます。かなりのオプションがあるので、詳細はPDFマニュアルを確認してください。

 

引用

Simulome: a genome sequence and variant simulator.

Adam Price and Cynthia Gibas

Bioinformatics, 33(12), 2017, 1876–1878