次世代のシーケンシングの進歩により、膨大な量のショートリードが生成されている。しかしながら、ショートリードからゲノム配列を組み立てることは依然として困難な作業である。ゲノム中の大きなリピートのために、通常、現在のアセンブリツールの多くはシーケンシングされるゲノムに沿った相対的な位置および向きが依然として未知のコンティグのコレクションを生成する。この問題に対処するためには、ゲノムドラフトのコンティグを順序付けし方向を定めるscaffoldingプロセスが必要である。本研究では、関連する生物のゲノムに基づいて、ドラフトゲノムのコンティグを効率的かつより正確に順序付け、方向付けできるCSARと呼ばれる新たなscaffoldingツールを提案する。特に、CSARに必要とされるゲノムは、必ずしも完全である必要はない。実際のデータセットに関する著者らの実験結果は、平均感度、精度、Fスコア、ゲノムカバレッジ、NGA50およびランニング時間の点でCSARがProjector2、OSLayおよびMauve Alignerのような他の同様のツールよりも優れていることを示している。
CSARは関連する生物のリファレンスゲノムに基づいて、対象のコンティグを効率的に順序付けする方法論。リファンレンスゲノムは、必ずしも完全でなくても動作する。
インストール
依存
- MUMmer whole genome alignment package
無ければbrewで導入しておく。
本体 Github
https://github.com/ablab-nthu/CSAR
git clone https://github.com/ablab-nthu/CSAR.git
cd CSAR/
php csar.php -h #ヘルプ
Usage: php csar.php [option] -t <target_contigs.fna file> -r <reference.fna file> [--nuc, --pro]
Option:
-t <string> Target genome (i.e., draft genome to be scaffolded)
-r <string> Reference genome
--nuc Use NUCmer to identify conserved genetic markers between target and reference genomes
--pro Use PROmer to identify conserved genetic markers between target and reference genomes
-o <string> Output folder to contain all the files returned by running CSAR (default: ./csar_out)
-h Show help message
ラン
gitでcloneすればテストデータもダウンロードされる。
テストランを実行する。
php csar.php -t example/M.luteus_contigs.fna -r example/GCA_001691605.1_reference.fna --nuc -o example_output
- -t <string> Target genome (i.e., draft genome to be scaffolded)
- -r <string> Reference genome
- --nuc Use NUCmer to identify conserved genetic markers between target and reference genomes
- -o <string> Output folder to contain all the files returned by running
10秒程度でランは終わる。出力ディレクトリ
scaffolds.nuc.csarにcontigのorder結果がプリントされている。gi|240114495|ref|NZ_CABC01000027.1|などはcontigの名前、右端の0と1はコンティグの向きを表す。
scaffolds.nuc.csar.fnaはアセンブル結果のFASTAとなる。NNNで繋がれた領域も残っている。
引用
CSAR: a contig scaffolding tool using algebraic rearrangements.
Chen KT, Liu CL, Huang SH, Shen HT, Shieh YK, Chiu HT, Lu CL.
Bioinformatics. 2018 Jan 1;34(1):109-111.