macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

fastq配列のシミュレーター ART

NGSのリードをシミュレートする手法はいくつかあるが、今回はMiseqのリードなどもシミュレートできるARTを紹介する。

https://www.niehs.nih.gov/research/resources/software/biostatistics/art/

 ARTはIllumina's Solexa, Roche's 454 and Applied Biosystems' SOLiDのリードをジェネレートできる。illuminaはMiseq v3の250bpをサポートしている。gccのライブラリをインストールしておけばbinary版をダウンロードして叩くだけで動く。

 

インストール

ダウンロードリンク。

から一番新しいmacOSX版(ソースと書いてない方がbinary版)

またはbrewでも導入できる。

#してなければサイエンス系レポジトリをtapしとく
brew tap brewsci/bio

brew install art

 

ラン

Miseq v3のエラープロファイルでカバレッジ100、インサートサイズ600、インサートサイズのSD10、250bpのペアードエンドリードを発生させる。

art_illumina -ss MSv3 -i ref.fa -p -l 250 -f 100 -m 600 -s 10 -o 250bp_paired
  • -l リード生成元のfasta
  • -l リード長(最大250)
  • -m インサートサイズ(リード込みのサイズ)
  • -f リードデプス(100なら-lで指定したゲノムのx100カバレッジ
  • -p ペアードエンド。

 ランが終わるとシミュレート結果のペアエンドエンドfastqができる。-samをつけるとゴールデンスタンダードとして利用できるsamファイルも出力される。

 

Hiseq2500のエラープロファイルでカバレッジ20、インサートサイズ2500、SD50、100-bpのメイトペアリードを発生させる。

art_illumina -ss HS25 -i ref.fa -mp -l 100 -f 20 -m 2500 -s 50 -o matepair_dat

  illuminaのデータをシミュレートして作った配列を見ると、5'末のクオリティが非常に低いことを確認できる。

 

SOLiD

solidのデータも出力できる。出力はcolorspaceのfastq。エラー発生率は過去の大量のデータから学習された確率に基づく。

 25bpで平均カバレッジが10のシングルリードを発生させる。

art_SOLiD -s ref.fa single 25 10
  • -A specify the read type for amplicon sequencing simulation (s:single-end, m: matepair, p: paired-end)
  • -M indicate to use CIGAR 'M' instead of '=/X' for alignment match/mismatch
  • -s indicate to generate a SAM alignment file
  • -r specify the random seed for the simulation
  • -f specify the scale factor adjusting error rate (e.g., -f 0 for zero-error rate simulation)
  • -p specify user's own read profile for simulation

samが必要なければ-sを消す。

長さが75 (F3) x 35 (F5)で、カバレッジ50、インサートサイズ250、SD10のペアードエンドリードを発生させる。

art_SOLiD -s ref.fa pair 75 35 50 250 10

長さ、カバレッジなどを記載する順番は決まっているので注意。

 

長さが35-35 (F3-R3)で、カバレッジ20、インサートサイズ2000、SD50のメイトペアリードを発生させる。

art_SOLiD -s ref.fa mate 35 20 2000 50

 

 引用

ART: a next-generation sequencing read simulator.

Huang W, Li L, Myers JR, Marth GT.

Bioinformatics. 2012 Feb 15;28(4):593-4.