macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GCbiasを考慮したイルミナのシミュレーター ArtificialFastqGenerator

 

 ArtificialFastqGeneratorはカバレッジGCバイアスを考慮可能なNGSリードのシミュレーター。イルミナのペアードエンドfastqに対応している。

  

 

比較表 Biostars

https://www.biostars.org/p/124126/

ダウンロード

javaの実行ファイルがダウンロードできる。

https://sourceforge.net/projects/artfastqgen/

 

ラン

ピークカバレッジ50の101-bpペアエンドfastqを発生させる。

java -jar ArtificialFastqGenerator.jar -R reference.fa -S -CMP 50 -RL  101 ">chr" -O seq
  • -R Reference genome sequence file, (must be specified). 
  • -S Prefix of the sequence identifier in the reference after which read generation should begin (must be specified).
  • -CMP The peak coverage mean for a region (default = 37.7).
  • -RL The length of each read, (default = 76).
  • -O Path for the artificial fastq and log files, including their base name (must be specified).

 パラメータの詳細は.logに出力される。

 

 

 

リアルデータのクオリティデータを使い、かつphread quality scoreの確率に基づいてエラーを発生させるなら、以下のフラグをつける。

 

インサートサイズ平均600-bp、インサートサイズのSD60、ピークカバレッジ100の301-bpペアエンドfastqを発生。

java -jar ArtificialFastqGenerator.jar -R reference.fa -S -CMP 100 -RL  301 -TLM 600 -TLSD 60 ">chr" -O seq -F1 r1.fq -F2 r2.fq
  • -F1 First fastq file to use for real quality scores, (must be specified if useRealQualityScores = true).
  • -F2 Second fastq file to use for real quality scores, (must be specified if useRealQualityScores = true).
  • -SE Whether to simulate error in the read based on the quality scores, (default = false).
  • -URQS Whether to use real quality scores from existing fastq files or set all to the maximum, (default = false). 
  • -TLM The mean DNA template length, (default = 210).
  • -TLSD The standard deviation of the DNA template length, (default = 60).

 

Trueseqのリアルシーケンスデータを使っている。アダプターに近い先頭数bpと3'末端1bpのクオリティが低くなっている。

>R1

f:id:kazumaxneo:20171106173641j:plain

 >R2

f:id:kazumaxneo:20171106174414j:plain

 

 

引用

Generation of Artificial FASTQ Files to Evaluate the Performance of Next-Generation Sequencing Pipelines

Matthew Frampton , Richard Houlston

PLoS One. 2012; 7(11): e49110.