2019 7/28コマンド追記
広範に使用されているPacBioプラットフォームおよびOxford Nanoporeプラットフォームを含む長いリード配列決定プラットフォームは、15〜20キロベースを超える配列断片を生成することを目的としており、構造変異の同定およびゲノムアセンブリを容易化する 。 しかしながら、ロングリードシーケンスは比較的高価でエラーが発生しやすく、配列決定の失敗はゲノミクス施設にとって重大な問題である。 シーケンシング失敗のメカニズムを定量的に評価するためには、シーケンシングの結果を比較できる高度に再現可能で制御可能な参照データセットを持つことが不可欠である。 著者らは、ロングリードシーケンスをリードする代表的なプラットフォームの両方から、標準化されたシーケンシング結果を生成するIn silicoのシミュレーションツールであるSiLiCOを報告する。
インストール
ubuntu14.04に導入した。
依存
- Python 2.7.11 or higher and Python 3.5 or higher.
- Snumpy
- pybedtools*
- natsort
本体のビルド時に導入されるので、持ってなくても問題ない。
https://github.com/ethanagbaker/SiLiCO
git clone https://github.com/ethanagbaker/SiLiCO.git
cd SiLiCO/
python setup.py build
python setup.py install
> python SiLiCO.py -h
$ python SiLiCO.py -h
#############################################################################
## SiLiCO: Simulator of Long Read Sequencing in PacBio and Oxford Nanopore ##
#############################################################################
Usage: python SiLiCO.py -i </path/to/genome> -o </path/to/outDir> -m <mean read length> -s <standard dev of read lengths> -c <coverage> -t <trials> [-f]
[ FILE I/O ]
-i, --infile=<str>, REQ Input genome fasta file. See README for formatting requirments.
-o, --output=<str>, OPT Output directory for results. Default = Current directory
[ DISTRIBUTION PARAMETERS ]
-m, --mean_read_length=<int>, OPT Mean read length for in-silico read generation. Default = 10000 bp
-s, --standard_dev=<int>, OPT Standard deviation of in-silico reads. Default = 2050
-c, --coverage=<int>, OPT Desired genome coverage of in-silico sequencing. Default = 8
--trials=<int>, OPT Number of trials. Default = 1
[ MODES ]
-f, --fasta, OPT FASTA Mode. When present, converts bed files to FASTA sequences using the provided reference genome.
-n, --nanopore, Generate Oxford Nanopore data. Calculates a gamma distribution.
-p, --pacbio, Generate PacBio data. Calculates a log normal distribution. Default mode if none specified.
[ DOCUMENTATION ]
-h, --help Display this message.
--version What version of SiLiCO are you using?
--contact Report a bug or get more help.
--citation View the citation for SiLiCO.
ラン
ONTのロングリードを発生させる。
python SiLiCO.py -i input.fa -o output--nanopore
- -i Input genome fasta file. See README for formatting requirments**.-i, --infile=<str>, REQ Input genome fasta file. See README for formatting requirments**.
- -o Output directory for results. Default = Current directory
- --fasta FASTA Mode. When present, converts bed files to FASTA sequences using the provided reference genome
- --nanopore Generate Oxford Nanopore data. Calculates a gamma distribution.-
- --pacbio Generate PacBio data. Calculates a log normal distribution. Default mode if none specified.
- -m Mean read length for in-silico read generation. Default = 10000 bp-m, --mean_read_length=<int>, OPT Mean read length for in-silico read generation. Default = 10000 bp
- -s Standard deviation of in-silico reads. Default = 2050
- -c Desired genome coverage of in-silico sequencing. Default = 8
- --trials=<int>, OPT Number of trials. Default = 1
Pacbioのロングリードを発生させる。fasta出力する。
python SiLiCO.py -i input.fa -o output --fasta --pacbio
引用
SiLiCO: A Simulator of Long Read Sequencing in PacBio and Oxford Nanopore
Ethan Alexander Garcia Baker, Sara Goodwin, W. Richard McCombie, Olivia Mendivil Ramos
bioRxiv preprint doi: https://doi.org/10.1101/076901
https://www.biorxiv.org/content/early/2016/09/22/076901