アセンブルのパフォーマンスを表す指標として N50やコンティグの数などがよく用いられているが、アセンブルの精度はこの値には反映されていない。FRC_alignは、Feature response courve: FRC(FRCを使ったアセンブル評価)を計算出力することで、異なるツール間のアセンブル結果をより正しく評価できるツール。カバレッジの深さ、k-merの反復数、indelの有無、mate-pairの分布、リードの向き(--> <--)などをもとに評価する。
FRC wiki
http://amos.sourceforge.net/wiki/index.php/FRCurve
ダウンロード
依存
- boost #ない人はこちらを参考にインストールしてください(リンク)。
公式サイト
http://opensource.scilifelab.se/projects/frc/
git clone https://github.com/vezzi/FRC_align.git
cd FRC_align
mkdir build
cd build
cmake .. #boostパスが見つからないと怒られる
make
FRC_align/bin/にFRCができる。パスの通ったディレクトリに移動しておく。
> FRC --help
$ FRC --help
FRC version 1.3.0
Allowed options:
--help produce help message
--pe-sam arg paired end alignment file (in sam or bam format).
Orientation must be -> <-
--pe-max-insert arg maximum allowed insert size for PE (to filter out
outleyers)
--mp-sam arg mate pairs alignment file. (in sam or bam format).
Orientation must be <- ->
--mp-max-insert arg maximum allowed insert size for MP (to filter out
outleyers)
--genome-size arg estimated genome size (if not supplied genome size is
believed to be assembly length
--output arg Header output file names (default FRC.txt and
Features.txt)
--CEstats-PE-min arg minimum allowed CE_stats in PE library
--CEstats-PE-max arg maximum allowed CE_stats in PE library
--CEstats-MP-min arg minimum allowed CE_stats in MP library
--CEstats-MP-max arg maximum allowed CE_stats in MP library
ラン
アセンブルしたcontigにショートのpaired-endとMarte-pairのリードをアライメントして、そのbamを入力とする。ショートのpaired-endのbamは必須となる。入力のbamはsasmtoolsなどでcoordinate sortされている必要がある。
FRC --pe-sam paired.bam --pe-max-insert 3000 --genome-size 40000000 --output OUTPUT_HEADER
- --pe-sam arg paired end alignment file (in sam or bam format). Orientation must be -> <-
- --pe-max-insert arg maximum allowed insert size for PE (to filter out outleyers)
- --mp-sam arg mate pairs alignment file. (in sam or bam format). Orientation must be <- ->
- --mp-max-insert arg maximum allowed insert size for MP (to filter out outleyers)
- --genome-size arg estimated genome size (if not supplied genome size is believed to be assembly length
- --output arg Header output file names (default FRC.txt and Features.txt)
mate-pairのデータはできる限りあったほうが良いとされる。
引用
Feature-by-Feature – Evaluating De Novo Sequence Assembly
Francesco Vezzi, Giuseppe Narzisi, Bud Mishra
PLoS One. 2012; 7(2): e31002.
Reevaluating Assembly Evaluations with Feature Response Curves: GAGE and Assemblathons
Francesco Vezzi, Giuseppe Narzisi and Bud Mishra
PLoS One. 2012; 7(12): e52210.
Comparing De Novo Genome Assembly: The Long and Short of It
Giuseppe Narzisi, and Bud Mishra
PLoS One. 2011; 6(4): e19175.