NanoSImは2017年に発表されたOxford nanoporeのロングリードのシミュレーター。ユーザーが指定したONTリードからプロファイルを作成し、それに基づいてロングリードを発生させることができる。
インストール
依存
- minimap2 (Tested with version 2.10)
- LAST (Tested with version 581 and 916)
- Python (2.7 or >= 3.4)
Python packages:
- six
- numpy (Tested with version 1.10.1 or above)
- HTSeq
- scipy (Tested with verson 1.0.0)
git clone https://github.com/bcgsc/NanoSim.git
cd NanoSim/
実行方法
ランは二段階で行う。第一ステップはONTのシーケンスデータを指定してのモデルの構築となる。
./read_analysis.py -i ONT.fasta -r reference.fa
- -r eference genome of the training reads
- -m User can provide their own alignment file, with maf extension
- -b number of bins (for development), default = 20
- -o The prefix of output file, default = 'training'
LASTを使いリファレンスゲノムにONTリードをアライメントしている。エラーを評価するため、ONTリード自身からアセンブルしたcontigをリファレンスに使ったりしてはならない。
カレントディレクトリにref_genome~とtrainning~というファイルがいくつかできる(-o 指定がない時)。
オーサーらにより、yeastと、E.coliの1dと2dで読んだONTリードのプロファイルやシーケンスデータが用意されている(R7とR9両方あり)。指定のONTリードがないならそれを使う。FTPサーバーリンク
wget ftp://ftp.bcgsc.ca/supplementary/NanoSim/yeast* #例えばyeastのデータをダウンロード
yeast_2D.fasta
yeast_S288C_ref.fa
yeast_profile.zip
がダウンロードされる。yeast_2D.fastaがONTリード、yeast_S288C_ref.faがリファレンスゲノムになる。
第二段階- 配列のシミュレーション。先ほど作ったtraining~を指定して走らせる。
./simulator.py linear -r referenceg.fa -c training
- -r reference genome in fasta file, specify path and file name
- --max_len Maximum read length, default = Inf
- --min_len Minimum read length, default = 50
- --perfect Output perfect reads, no mutations, default = False
- --KmerBias prohibits homopolymers with length >= 6 bases in output reads, can be omitted
- -o The prefix of output file, default = 'simulated'
- -n Number of generated reads, default = 20,000 reads
- -c the prefix of training set profiles, same as the output prefix in read_analysis.py, default = training
- circular | linear Do not choose 'circular' when there is more than one sequence in the reference <options>:
-oで指定しなければ、simulated_reads.fastaが出力される。環状ゲノムならcircularにすること。
出力された配列をseqkitで簡単に分析する。
user$ seqkit stats simulated_reads.fasta
file format type num_seqs sum_len min_len avg_len max_len
simulated_reads.fasta FASTA DNA 20,000 139,782,497 168 6,989.1 25,253
最長25253-bp、最短168-bp、平均6989-bpのリードが出力された。
seqkitは以下で紹介しています。
引用
NanoSim: nanopore sequence read simulator based on statistical characterization.
Chen Yang, Justin Chu, René L Warren, Inanç Birol
Gigascience 2017 gix010