Simulomeは2017年に発表されたbacteria向けの遺伝子のシミュレートツールである。gene情報を与えることで、標準では一部の遺伝子に限定してシミュレートする。具体的には、遺伝子の長さの分布を調べ、その平均と標準偏差から遺伝子のサンプリングをお行い、サンプリングされた遺伝子のみ出力してpseudo-genomeを作成する。このとき、SNPsやindelのフラグをつけることで、指向的な変異を導入することが可能になっている。また、単純にゲノム全体を(変異を入れて)シミュレートすることも可能である。
https://github.com/price0416/Simulome/wiki
マニュアル
ダウンロードしたフォルダにマニュアルPDFが含まれている。
ダウンロード
依存
- Python 2.7.2
- Biopython 1.6.1+
- BLAST 2.3.0+
GitHub - price0416/Simulome: Simulome, genome and mutant variant simulator.
実行方法
sample_dataディレクトリのデータを使いテストランを行う。500遺伝子サンプリングしてpusedo-genomeを作成する。1遺伝子につき10のSNPsを導入する。
python2.7 simulome.py --genome=sample_data/ecoli_genome.fasta --anno=sample_data/ecoli_anno.gtf --output=ecoli_simulation -- num_genes=500 --snp=TRUE --num_snp=10
- --genome= File representing genome. FASTA nucleotide format.
- --anno= File containing genome annotation information in GTF/GFF3 format.
- --output= Creates a folder named with the supplied prefix containing output files.
- --num_snp= The number of SNPs to simulate per gene. This argument is required for SNP run mode.
全ゲノムのシミュレートは--num_snpフラグは除き、--whole_genome TRUEをつける。
500遺伝子サンプリングしてpusedo-genomeを作成する。1遺伝子につき、1つの100-bp挿入を導入する。
python2.7 simulome.py --genome=sample_data/ecoli_genome.fasta --anno=sample_data/ecoli_anno.gtf --output=ecoli_simulation -- num_genes=500 --snp=TRUE --num_snp=10 --indel 3 --ins_len=100
- --indel File representing genome. FASTA nucleotide format.
Possible values are:
1 = Insertions only.
2 = Deletions only.
3 = Both insertions and deletions.
- --ins_len= Length of insertion events. Required for insertion mode.
Synonymous mutationとnonsynonymous mutationsの指定してアミノ酸変化を起こす塩基置換の割合を指定したり、duplication eventを導入したりできます。かなりのオプションがあるので、詳細はPDFマニュアルを確認してください。
引用
Simulome: a genome sequence and variant simulator.
Adam Price and Cynthia Gibas
Bioinformatics, 33(12), 2017, 1876–1878