macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

fastq配列のシミュレーター

NGSのリードをシミュレートする手法はいくつかあるが、今回はMiseqのリードなどもシミュレートできるARTを紹介する。

https://www.niehs.nih.gov/research/resources/software/biostatistics/art/

 

ARTはIllumina's Solexa, Roche's 454 and Applied Biosystems' SOLiDのリードをジェネレートできる。illuminaはMiseq v3の250bpをサポートしている。gccのライブラリをインストールしておけばbinary版をダウンロードして叩くだけで動く。

 

 

ARTはこちらからダウンロード。

から一番新しいmacOSX版(ソースと書いてない方がbinary版)

 

 

ラン

 

Miseq v3のエラープロファイルでカバレッジ100、インサートサイズ600、インサートサイズのSD10、250bpのペアードエンドリードを発生させる。

./art_illumina -ss MSv3 -sam -i ref.fa -p -l 250 -f 100 -m 600 -s 10 -o 250bp_paired
  • -l リード生成元のfasta
  • -l リード長(最大250)
  • -m インサートサイズ(リード込みのサイズ)
  • -f リードデプス(100なら-lで指定したゲノムのx100カバレッジ
  • -p ペアードエンド。

 ランはバクテリアゲノムのサイズなら数分である。シミュレート結果としてペアードエンドのfastqの他にそのalnファイルとsamファイルもできる。これらはindel解析のシミュレーションなどする場合にあると便利である。

 

Hiseq2500のエラープロファイルでカバレッジ20、インサートサイズ2500、SD50、100-bpのメイトペアリードを発生させる。

./art_illumina -ss HS25 -sam -i ref.fa -mp -l 100 -f 20 -m 2500 -s 50 -o matepair_dat

 

 illuminaのデータをシミュレートして作った配列を見ると、5'末のクオリティが非常に低いことを確認できる。

 

 

 

SOLiD

solidのデータも出力できる。出力はcolorspaceのfastq。エラー発生率は過去の大量のデータから学習された確率に基づく。

 

25bpで平均カバレッジが10のシングルリードを発生させる。

./art_SOLiD -s ref.fa single 25 10
  • -A specify the read type for amplicon sequencing simulation (s:single-end, m: matepair, p: paired-end)
  • -M indicate to use CIGAR 'M' instead of '=/X' for alignment match/mismatch
  • -s indicate to generate a SAM alignment file
  • -r specify the random seed for the simulation
  • -f specify the scale factor adjusting error rate (e.g., -f 0 for zero-error rate simulation)
  • -p specify user's own read profile for simulation

samが必要なければ-sを消す。

 

 

長さが75 (F3) x 35 (F5)で、カバレッジ50、インサートサイズ250、SD10のペアードエンドリードを発生させる。

./art_SOLiD -s ref.fa pair 75 35 50 250 10

長さ、カバレッジなどを記載する順番は決まっているので注意。

 

長さが35-35 (F3-R3)で、カバレッジ20、インサートサイズ2000、SD50のメイトペアリードを発生させる。

./art_SOLiD -s ref.fa mate 35 20 2000 50