シングルセルシーケンシング(SCS)の技術的な問題点として、アレルドロップアウト(ADO)やアンバランス増幅があり、これらを効果的にエミュレートすることは、SCSベースのバイオインフォマティクスツールを確実にベンチマークするために必要である。このような問題点を効果的にエミュレートするためには、SCSをベースとしたバイオインフォマティクスツールのベンチマークを確実に行う必要がある。本研究では、SCSデータセットを効率的に並列シミュレーションできるソフトウェアパッケージ(SCSsim)を開発した。SCSsimは、まずシングルセルのゲノム配列を構築し、そのゲノムをMALBAC法により増幅し、その増幅産物から推定されるシークエンシングプロファイルに基づいてシークエンシングリードを生成する。異なるADO率、変異検出効率、ゲノムカバレッジをシミュレートして総合的に評価した結果、SCSsimはシングルセルシーケンシングデータを高効率で模倣する上で非常に有用なツールであることが示された。
インストール
git clone https://github.com/qasimyu/scssim.git
cd scssim/
cmake .
make
> ./scssim -h
$ ./scssim -h
SCSsim version: 1.0
Usage: ./scssim [subcommand] [options]
Optional arguments:
-h, --help give this information
-v, --version <string> print software version
Available subcmds:
simuvars simulate the genome sequence of single cells
learn learn sequencing profiles from real sequencing data
genreads simulate sequencing reads of single cell
Author: Zhenhua Yu <qasim0208@163.com>
> ./scssim simuvars -h
$ ./scssim simuvars -h
Usage: scssim simuvars [options]
Options:
-h, --help give this information
-r, --ref <string> reference file (.fasta)
-s, --snp <string> SNP file containing the SNPs to be simulated [Default:null]
-v, --var <string> variation file containing the genomic variations to be simulated [Default:null]
-o, --output <string> output file (.fasta) to save generated sequences
Example:
scssim simuvars -r /path/to/hg19.fa -s /path/to/hg19.snp138.1based.txt -v /path/to/variation.txt -o /path/to/results.fa
scssim simuvars -r /path/to/hg19.fa -v /path/to/variation.txt -o /path/to/results.fa
scssim simuvars -r /path/to/hg19.fa -s /path/to/hg19.snp138.1based.txt -o /path/to/results.fa
>./scssim learn -h
$ ./scssim learn -h
Usage: scssim learn [options]
Options:
-h, --help give this information
-b, --bam <string> normal BAM file
-t, --target <string> exome target file (.bed) for whole-exome sequencing[default:null]
-v, --vcf <string> the VCF file generated from the normal BAM
-r, --ref <string> genome reference file (.fasta) to which the reads were aligned
-w, --wsize <int> the length of windows used to infer GC-content bias[default:1000]
-k, --kmer <int> the length of kmer sequence [default:3]
-o, --output <string> output file
-s, --samtools <string> the path of samtools [default:samtools]
Example:
scssim learn -b /path/to/normal.bam -t /path/to/normal.bed -v /path/to/normal.vcf -r /path/to/ref.fa > /path/to/results.profile
scssim learn -b /path/to/normal.bam -v /path/to/normal.vcf -r /path/to/ref.fa -o /path/to/results.profile -s /path/to/samtools
> ./scssim genreads -h
$ ./scssim genreads -h
Usage: scssim genreads [options]
Options:
-h, --help give this information
-i, --input <string> sequence file (.fasta) generated by simuVars program
MALBAC options:
-p, --primers <int> the number of primers [Default:100000]
-r, --gamma <float> a parameter controlling the number of primers used in each cycle [Default:1e-9]
Read simulation options:
-m, --model <string> profile inferred from real sequencing data
-l, --layout <string> read layout (SE for single end, PE for paired-end) [Default:PE]
-c, --coverage <float> sequencing coverage [Default:5]
-s, --isize <int> mean insert size for paired-end sequencing [Default:260]
-t, --threads <int> number of threads to use [Default:1]
-o, --output <string> the prefix of output file
Example:
scssim genreads -i /path/to/ref.fa -m /path/to/hiseq2500.profile -t 5 -o /path/to/reads
実行方法
3つのサブコマンドがある。
simuvars - SNP、SNV、inddel、CNVを導入するシングルセルゲノムのシミュレーション
#テストラン
cd scssim/
scssim simuvars -r testData/refs/ref.fa.gz -s testData/snps/snp.txt -v testData/vars/vars.txt -o simu.fa
learn - リアルデータからシークエンシングバイアスやエラーを学習してシークエンシングプロファイルを出力
scssim learn -b sample.bam -t targets.bed -v sample.vcf -r ref.fa > profile
genreads - シミュレートしたシングルセルゲノム配列とシークエンシングプロファイルからリードを出力
scssim genreads -i simu.fa -r 2e-10 -m scssim/testData/models/Illumina_HiSeq2500.profile -t 5 -o reads
reads_1.fqとreads_2.fq が出力される。
引用
SCSsim: an integrated tool for simulating single-cell genome sequencing data
Zhenhua Yu, Fang Du, Xuehong Sun, Ao Li
Bioinformatics, Volume 36, Issue 4, 15 February 2020, Pages 1281–1282