macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ロングリードのシミュレーター SiLiCO

 

 広範に使用されているPacBioプラットフォームおよびOxford Nanoporeプラットフォームを含む長いリード配列決定プラットフォームは、15〜20キロベースを超える配列断片を生成することを目的としており、構造変異の同定およびゲノムアセンブリを容易化する 。 しかしながら、ロングリードシーケンスは比較的高価でエラーが発生しやすく、配列決定の失敗はゲノミクス施設にとって重大な問題である。 シーケンシング失敗のメカニズムを定量的に評価するためには、シーケンシングの結果を比較できる高度に再現可能で制御可能な参照データセットを持つことが不可欠である。 著者らは、ロングリードシーケンスをリードする代表的なプラットフォームの両方から、標準化されたシーケンシング結果を生成するIn silicoのシミュレーションツールであるSiLiCOを報告する。

 

2016年にpreprintが出ている。

 

インストール

ubuntu14.04に導入した。

依存

本体のビルド時に導入されるので、持ってなくても問題ない。

Github

https://github.com/ethanagbaker/SiLiCO

git clone https://github.com/ethanagbaker/SiLiCO.git
cd SiLiCO/
python setup.py build
python setup.py install

python SiLiCO.py -h

$ python SiLiCO.py -h

 

#############################################################################

## SiLiCO: Simulator of Long Read Sequencing in PacBio and Oxford Nanopore ##

#############################################################################

 

Usage: python SiLiCO.py -i </path/to/genome> -o </path/to/outDir> -m <mean read length> -s <standard dev of read lengths> -c <coverage> -t <trials> [-f] 

 

 

[ FILE I/O ]

 

-i, --infile=<str>, REQ Input genome fasta file. See README for formatting requirments.

-o, --output=<str>, OPT Output directory for results. Default = Current directory

 

[ DISTRIBUTION PARAMETERS ]

 

-m, --mean_read_length=<int>, OPT Mean read length for in-silico read generation. Default = 10000 bp

-s, --standard_dev=<int>, OPT Standard deviation of in-silico reads. Default = 2050

-c, --coverage=<int>, OPT Desired genome coverage of in-silico sequencing. Default = 8

--trials=<int>, OPT Number of trials. Default = 1 

 

[ MODES ] 

 

-f, --fasta, OPT FASTA Mode. When present, converts bed files to FASTA sequences using the provided reference genome.

-n, --nanopore, Generate Oxford Nanopore data. Calculates a gamma distribution.

-p, --pacbio, Generate PacBio data. Calculates a log normal distribution. Default mode if none specified.

 

[ DOCUMENTATION ] 

 

-h, --help Display this message.

--version What version of SiLiCO are you using?

--contact Report a bug or get more help.

--citation View the citation for SiLiCO.

 

 

 

ラン

 ONTのロングリードを発生させる。

python SiLiCO.py -i input.fa -o output --fasta --nanopore
  • -i Input genome fasta file. See README for formatting requirments**.-i, --infile=<str>, REQ Input genome fasta file. See README for formatting requirments**.
  • -o Output directory for results. Default = Current directory
  • --fasta  FASTA Mode. When present, converts bed files to FASTA sequences using the provided reference genome
  • --nanopore Generate Oxford Nanopore data. Calculates a gamma distribution.-
  • --pacbio Generate PacBio data. Calculates a log normal distribution. Default mode if none specified.
  • -m Mean read length for in-silico read generation. Default = 10000 bp-m, --mean_read_length=<int>, OPT Mean read length for in-silico read generation. Default = 10000 bp
  • -s Standard deviation of in-silico reads. Default = 2050
  • -c Desired genome coverage of in-silico sequencing. Default = 8
  • --trials=<int>, OPT Number of trials. Default = 1 

 

 

 

引用

SiLiCO: A Simulator of Long Read Sequencing in PacBio and Oxford Nanopore

Ethan Alexander Garcia Baker, Sara Goodwin, W. Richard McCombie, Olivia Mendivil Ramos

bioRxiv preprint doi: https://doi.org/10.1101/076901

https://www.biorxiv.org/content/early/2016/09/22/076901