macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

シングルセルのシークエンシングデータをシミュレートする SCSsim

 

 シングルセルシーケンシング(SCS)の技術的な問題点として、アレルドロップアウト(ADO)やアンバランス増幅があり、これらを効果的にエミュレートすることは、SCSベースのバイオインフォマティクスツールを確実にベンチマークするために必要である。このような問題点を効果的にエミュレートするためには、SCSをベースとしたバイオインフォマティクスツールのベンチマークを確実に行う必要がある。本研究では、SCSデータセットを効率的に並列シミュレーションできるソフトウェアパッケージ(SCSsim)を開発した。SCSsimは、まずシングルセルのゲノム配列を構築し、そのゲノムをMALBAC法により増幅し、その増幅産物から推定されるシークエンシングプロファイルに基づいてシークエンシングリードを生成する。異なるADO率、変異検出効率、ゲノムカバレッジをシミュレートして総合的に評価した結果、SCSsimはシングルセルシーケンシングデータを高効率で模倣する上で非常に有用なツールであることが示された。

インストール

Github

 

git clone https://github.com/qasimyu/scssim.git
cd scssim/
cmake .
make

./scssim -h

$ ./scssim -h

 

SCSsim version: 1.0

Usage: ./scssim [subcommand] [options]

 

Optional arguments:

    -h, --help                      give this information

    -v, --version <string>          print software version

 

Available subcmds:

    simuvars          simulate the genome sequence of single cells

    learn             learn sequencing profiles from real sequencing data

    genreads          simulate sequencing reads of single cell

 

Author: Zhenhua Yu <qasim0208@163.com>

./scssim simuvars -h

$ ./scssim simuvars -h

Usage: scssim simuvars [options]

 

Options:

    -h, --help                      give this information

    -r, --ref <string>              reference file (.fasta)

    -s, --snp <string>              SNP file containing the SNPs to be simulated [Default:null]

    -v, --var <string>              variation file containing the genomic variations to be simulated [Default:null]

    -o, --output <string>           output file (.fasta) to save generated sequences

 

Example:

    scssim simuvars -r /path/to/hg19.fa -s /path/to/hg19.snp138.1based.txt -v /path/to/variation.txt -o /path/to/results.fa

 

    scssim simuvars -r /path/to/hg19.fa -v /path/to/variation.txt -o /path/to/results.fa

 

    scssim simuvars -r /path/to/hg19.fa -s /path/to/hg19.snp138.1based.txt -o /path/to/results.fa

>./scssim learn -h

$ ./scssim learn -h

Usage: scssim learn [options]

 

Options:

    -h, --help                      give this information

    -b, --bam <string>              normal BAM file

    -t, --target <string>           exome target file (.bed) for whole-exome sequencing[default:null]

    -v, --vcf <string>              the VCF file generated from the normal BAM

    -r, --ref <string>              genome reference file (.fasta) to which the reads were aligned

    -w, --wsize <int>               the length of windows used to infer GC-content bias[default:1000]

    -k, --kmer <int>                the length of kmer sequence [default:3]

    -o, --output <string>           output file

    -s, --samtools <string>         the path of samtools [default:samtools]

 

Example:

    scssim learn -b /path/to/normal.bam -t /path/to/normal.bed -v /path/to/normal.vcf -r /path/to/ref.fa > /path/to/results.profile

 

    scssim learn -b /path/to/normal.bam -v /path/to/normal.vcf -r /path/to/ref.fa -o /path/to/results.profile -s /path/to/samtools

> ./scssim genreads -h

$ ./scssim genreads -h

Usage: scssim genreads [options]

 

Options:

    -h, --help                      give this information

    -i, --input <string>            sequence file (.fasta) generated by simuVars program

  MALBAC options:

    -p, --primers <int>             the number of primers [Default:100000]

    -r, --gamma <float>             a parameter controlling the number of primers used in each cycle [Default:1e-9]

  Read simulation options:

    -m, --model <string>            profile inferred from real sequencing data

    -l, --layout <string>           read layout (SE for single end, PE for paired-end) [Default:PE]

    -c, --coverage <float>          sequencing coverage [Default:5]

    -s, --isize <int>               mean insert size for paired-end sequencing [Default:260]

    -t, --threads <int>             number of threads to use [Default:1]

    -o, --output <string>           the prefix of output file

 

Example:

    scssim genreads -i /path/to/ref.fa -m /path/to/hiseq2500.profile -t 5 -o /path/to/reads

 

 

実行方法

3つのサブコマンドがある。

 

simuvars - SNP、SNV、inddel、CNVを導入するシングルセルゲノムのシミュレーション

#テストラン
cd scssim/
scssim simuvars -r testData/refs/ref.fa.gz -s testData/snps/snp.txt -v testData/vars/vars.txt -o simu.fa

 

learn - リアルデータからシークエンシングバイアスやエラーを学習してシークエンシングプロファイルを出力

scssim learn -b sample.bam -t targets.bed -v sample.vcf -r ref.fa > profile

 

genreads - シミュレートしたシングルセルゲノム配列とシークエンシングプロファイルからリードを出力

scssim genreads -i simu.fa -r 2e-10 -m scssim/testData/models/Illumina_HiSeq2500.profile -t 5 -o reads

reads_1.fqとreads_2.fq が出力される。

 

引用

SCSsim: an integrated tool for simulating single-cell genome sequencing data
Zhenhua Yu, Fang Du, Xuehong Sun, Ao Li
Bioinformatics, Volume 36, Issue 4, 15 February 2020, Pages 1281–1282