macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Reference-assisted assembly CSAR

 

 次世代のシーケンシングの進歩により、膨大な量のショートリードが生成されている。しかしながら、ショートリードからゲノム配列を組み立てることは依然として困難な作業である。ゲノム中の大きなリピートのために、通常、現在のアセンブリツールの多くはシーケンシングされるゲノムに沿った相対的な位置および向きが依然として未知のコンティグのコレクションを生成する。この問題に対処するためには、ゲノムドラフトのコンティグを順序付けし方向を定めるscaffoldingプロセスが必要である。本研究では、関連する生物のゲノムに基づいて、ドラフトゲノムのコンティグを効率的かつより正確に順序付け、方向付けできるCSARと呼ばれる新たなscaffoldingツールを提案する。特に、CSARに必要とされるゲノムは、必ずしも完全である必要はない。実際のデータセットに関する著者らの実験結果は、平均感度、精度、Fスコア、ゲノムカバレッジ、NGA50およびランニング時間の点でCSARがProjector2、OSLayおよびMauve Alignerのような他の同様のツールよりも優れていることを示している。

 

CSARは関連する生物のリファレンスゲノムに基づいて、対象のコンティグを効率的に順序付けする方法論。リファンレンスゲノムは、必ずしも完全でなくても動作する。

 

インストール

依存

  • MUMmer whole genome alignment package

無ければbrewで導入しておく。

本体 Github

https://github.com/ablab-nthu/CSAR

git clone https://github.com/ablab-nthu/CSAR.git
cd CSAR/
php csar.php -h #ヘルプ

$ php csar.php -h

Usage: php csar.php [option] -t <target_contigs.fna file> -r <reference.fna file> [--nuc, --pro]

Option:

-t <string>   Target genome (i.e., draft genome to be scaffolded)

 

-r <string>   Reference genome

 

--nuc         Use NUCmer to identify conserved genetic markers between target and reference genomes

 

--pro         Use PROmer to identify conserved genetic markers between target and reference genomes

 

-o <string>   Output folder to contain all the files returned by running CSAR (default: ./csar_out)

 

-h            Show help message

 

ラン

gitでcloneすればテストデータもダウンロードされる。

テストランを実行する。

php csar.php -t example/M.luteus_contigs.fna -r example/GCA_001691605.1_reference.fna --nuc -o example_output
  • -t <string>   Target genome (i.e., draft genome to be scaffolded)
  • -r <string>   Reference genome
  • --nuc    Use NUCmer to identify conserved genetic markers between target and reference genomes
  • -o <string>   Output folder to contain all the files returned by running

10秒程度でランは終わる。出力ディレクト

f:id:kazumaxneo:20180206001727j:plain

scaffolds.nuc.csarにcontigのorder結果がプリントされている。gi|240114495|ref|NZ_CABC01000027.1|などはcontigの名前、右端の0と1はコンティグの向きを表す。

f:id:kazumaxneo:20180206001837j:plain

scaffolds.nuc.csar.fnaはアセンブル結果のFASTAとなる。NNNで繋がれた領域も残っている。

 

 

引用

CSAR: a contig scaffolding tool using algebraic rearrangements.

Chen KT, Liu CL, Huang SH, Shen HT, Shieh YK, Chiu HT, Lu CL.

Bioinformatics. 2018 Jan 1;34(1):109-111.