ArtificialFastqGeneratorはカバレッジGCバイアスを考慮可能なNGSリードのシミュレーター。イルミナのペアードエンドfastqに対応している。
比較表 Biostars
https://www.biostars.org/p/124126/
ダウンロード
javaの実行ファイルがダウンロードできる。
https://sourceforge.net/projects/artfastqgen/
ラン
ピークカバレッジ50の101-bpペアエンドfastqを発生させる。
java -jar ArtificialFastqGenerator.jar -R reference.fa -S -CMP 50 -RL 101 ">chr" -O seq
- -R Reference genome sequence file, (must be specified).
- -S Prefix of the sequence identifier in the reference after which read generation should begin (must be specified).
- -CMP The peak coverage mean for a region (default = 37.7).
- -RL The length of each read, (default = 76).
- -O Path for the artificial fastq and log files, including their base name (must be specified).
パラメータの詳細は.logに出力される。
リアルデータのクオリティデータを使い、かつphread quality scoreの確率に基づいてエラーを発生させるなら、以下のフラグをつける。
インサートサイズ平均600-bp、インサートサイズのSD60、ピークカバレッジ100の301-bpペアエンドfastqを発生。
java -jar ArtificialFastqGenerator.jar -R reference.fa -S -CMP 100 -RL 301 -TLM 600 -TLSD 60 ">chr" -O seq -F1 r1.fq -F2 r2.fq
- -F1 First fastq file to use for real quality scores, (must be specified if useRealQualityScores = true).
- -F2 Second fastq file to use for real quality scores, (must be specified if useRealQualityScores = true).
- -SE Whether to simulate error in the read based on the quality scores, (default = false).
- -URQS Whether to use real quality scores from existing fastq files or set all to the maximum, (default = false).
- -TLM The mean DNA template length, (default = 210).
- -TLSD The standard deviation of the DNA template length, (default = 60).
Trueseqのリアルシーケンスデータを使っている。アダプターに近い先頭数bpと3'末端1bpのクオリティが低くなっている。
>R1
>R2
引用
Generation of Artificial FASTQ Files to Evaluate the Performance of Next-Generation Sequencing Pipelines
Matthew Frampton , Richard Houlston
PLoS One. 2012; 7(11): e49110.