macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Reference-assisted assembly CSAR

 

CSARは関連する生物のリファレンスゲノムに基づいて、対象のコンティグを効率的に順序付けする方法論。リファンレンスゲノムは、必ずしも完全でなくても動作する。

 

インストール

依存

  • MUMmer whole genome alignment package

無ければbrewで導入しておく。

本体 Github

https://github.com/ablab-nthu/CSAR

git clone https://github.com/ablab-nthu/CSAR.git
cd CSAR/
php csar.php -h #ヘルプ

$ php csar.php -h

Usage: php csar.php [option] -t <target_contigs.fna file> -r <reference.fna file> [--nuc, --pro]

Option:

-t <string>   Target genome (i.e., draft genome to be scaffolded)

 

-r <string>   Reference genome

 

--nuc         Use NUCmer to identify conserved genetic markers between target and reference genomes

 

--pro         Use PROmer to identify conserved genetic markers between target and reference genomes

 

-o <string>   Output folder to contain all the files returned by running CSAR (default: ./csar_out)

 

-h            Show help message

 

ラン

gitでcloneすればテストデータもダウンロードされる。

テストランを実行する。

php csar.php -t example/M.luteus_contigs.fna -r example/GCA_001691605.1_reference.fna --nuc -o example_output
  • -t <string>   Target genome (i.e., draft genome to be scaffolded)
  • -r <string>   Reference genome
  • --nuc    Use NUCmer to identify conserved genetic markers between target and reference genomes
  • -o <string>   Output folder to contain all the files returned by running

10秒程度でランは終わる。出力ディレクト

f:id:kazumaxneo:20180206001727j:plain

scaffolds.nuc.csarにcontigのorder結果がプリントされている。gi|240114495|ref|NZ_CABC01000027.1|などはcontigの名前、右端の0と1はコンティグの向きを表す。

f:id:kazumaxneo:20180206001837j:plain

scaffolds.nuc.csar.fnaはアセンブル結果のFASTAとなる。NNNで繋がれた領域も残っている。

 

 

引用

CSAR: a contig scaffolding tool using algebraic rearrangements.

Chen KT, Liu CL, Huang SH, Shen HT, Shieh YK, Chiu HT, Lu CL.

Bioinformatics. 2018 Jan 1;34(1):109-111.