macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Feature response courveによりアセンブルを評価するFRC_align

 

アセンブルのパフォーマンスを表す指標として N50やコンティグの数などがよく用いられているが、アセンブルの精度はこの値には反映されていない。FRC_alignは、Feature response courve: FRC(FRCを使ったアセンブル評価)を計算出力することで、異なるツール間のアセンブル結果をより正しく評価できるツール。カバレッジの深さ、k-merの反復数、indelの有無、mate-pairの分布、リードの向き(--> <--)などをもとに評価する。

 

FRC wiki

http://amos.sourceforge.net/wiki/index.php/FRCurve

 

ダウンロード

依存

  • boost #ない人はこちらを参考にインストールしてください(リンク)。

公式サイト

http://opensource.scilifelab.se/projects/frc/

git clone https://github.com/vezzi/FRC_align.git 
cd FRC_align
mkdir build
cd build
cmake .. #boostパスが見つからないと怒られる
make

FRC_align/bin/にFRCができる。パスの通ったディレクトリに移動しておく。

> FRC --help

$ FRC --help

FRC version 1.3.0

 

Allowed options:

  --help                produce help message

  --pe-sam arg          paired end alignment file (in sam or bam format). 

                        Orientation must be -> <-

  --pe-max-insert arg   maximum allowed insert size for PE (to filter out 

                        outleyers)

  --mp-sam arg          mate pairs alignment file. (in sam or bam format). 

                        Orientation must be <- ->

  --mp-max-insert arg   maximum allowed insert size for MP (to filter out 

                        outleyers)

  --genome-size arg     estimated genome size (if not supplied genome size is 

                        believed to be assembly length

  --output arg          Header output file names (default FRC.txt and 

                        Features.txt)

  --CEstats-PE-min arg  minimum allowed CE_stats in PE library

  --CEstats-PE-max arg  maximum allowed CE_stats in PE library

  --CEstats-MP-min arg  minimum allowed CE_stats in MP library

  --CEstats-MP-max arg  maximum allowed CE_stats in MP library

 

 

ラン

アセンブルしたcontigにショートのpaired-endとMarte-pairのリードをアライメントして、そのbamを入力とする。ショートのpaired-endのbamは必須となる。入力のbamはsasmtoolsなどでcoordinate sortされている必要がある。

FRC --pe-sam paired.bam --pe-max-insert 3000 --genome-size 40000000 --output OUTPUT_HEADER
  • --pe-sam arg paired end alignment file (in sam or bam format). Orientation must be -> <-
  • --pe-max-insert arg maximum allowed insert size for PE (to filter out outleyers)
  • --mp-sam arg mate pairs alignment file. (in sam or bam format). Orientation must be <- -> 
  • --mp-max-insert arg maximum allowed insert size for MP (to filter out outleyers)
  • --genome-size arg estimated genome size (if not supplied genome size is believed to be assembly length
  • --output arg Header output file names (default FRC.txt and Features.txt)

 mate-pairのデータはできる限りあったほうが良いとされる。

 

 

 

引用

Feature-by-Feature – Evaluating De Novo Sequence Assembly

Francesco Vezzi, Giuseppe Narzisi, Bud Mishra

PLoS One. 2012; 7(2): e31002.

 

Reevaluating Assembly Evaluations with Feature Response Curves: GAGE and Assemblathons

Francesco Vezzi, Giuseppe Narzisi and Bud Mishra

PLoS One. 2012; 7(12): e52210.

 

 

 

 

Comparing De Novo Genome Assembly: The Long and Short of It

Giuseppe Narzisi, and Bud Mishra

PLoS One. 2011; 6(4): e19175.