ショートリードからゲノム配列をアセンブリするプロセスの重要なステップの一つに、ドラフトゲノム中のコンティグを順序付け、方向付けを行うスキャフォールディングがある。現在、単一のリファレンスゲノムをベースにしたいくつかのスキャフォールディングツールが開発されている。しかし、ターゲットゲノムとリファレンスゲノムの間の進化的な関係が遠い場合や、それらの間でリアレンジメントが発生する場合、スキャフォルダーがターゲットのドラフトゲノムの正しいスキャフォールドを生成するためには、単一のリファレンスゲノムだけでは十分ではない場合がある。このことは、複数のリファレンスゲノムを用いてターゲットゲノムのコンティグを順序付けして方向付けることができるスキャフォールディングツールの開発の必要性を動機付けている。
本研究では、複数のリファレンスゲノムを用いて、ターゲットゲノムのコンティグを整列・配向させることができるスキャフォールディングツールを開発した。本研究では、ヒューリスティックな手法を用いて、複数のリファレンスゲノムを用いてドラフトゲノムを正確にスキャフォールドすることができる新しいスキャフォールドツール「Multi-CSAR」を開発した。実際のデータセットを用いた実験結果から、Multi-CSARは、感度、精度、Fスコア、ゲノムカバレッジ、NGA50、スキャフォールド数、実行時間などの多くの平均的な指標において、他の2つの複数リファレンスゲノムガイドスキャフォールディングツールであるRagoutとMeDuSaを凌駕することが示された。スタンドアロンのプログラムは https://github.com/ablab-nthu/Multi-CSAR からダウンロードできる。
インストール
ubuntu18.04でテストした。
依存
- PHP (from 5): http://php.net/downloads.php
- MUMmer: http://mummer.sourceforge.net
#apt update && apt install php
conda install -c bioconda -hy mummer
#clone repository
git clone https://github.com/ablab-nthu/Multi-CSAR.git
cd Multi-CSAR/
php setup.php
> ./multi-csar.php
$ ./multi-csar.php
Usage: multi-csar.php [option] -t <target_contigs_file> -r <references_directory> --nuc/--pro
Option:
-t <string> Input file that contains the target draft genome in the multi-FASTA format
-r <string> Input directory that contains only reference genomes in the multi-FASTA format
--nuc Use NUCmer to identify markers between the target genome and each reference genome
--pro Use PROmer to identify markers between the target genome and each reference genome
-w Use the sequence identity-based weighting scheme
-o <string> Output directory that contains all the output files (the default is ./multi-csar_out)
--CSAR Keep the files generated by CSAR
-h Show help message
テストラン
4つのリファレンスゲノムをガイドにしてscaffoldingを行う。
multi-csar.php -t example/Burkholderia_target.fna -r example/reference_genomes/ --nuc -o example_out
# SHOW CONTIG
perfect matching with 2446 nodes and 2989012 edges
starting init...done [0.218 secs]. 0 trees
.
done [0.218 secs]. 0 grows, 0 expands, 0 shrinks
expands: [0.000 secs], shrinks: [0.000 secs], dual updates: [0.000 secs]
cost = -3544.0
+++ Blossom Recover +++
--- Blossom Recover ---
Multi-CSAR is DONE!
出力
> ls -lh example_out/
# ls -lh example_out/
total 7.4M
-rw-r--r-- 1 root root 8.7K Jun 10 04:12 multi-csar.nuc.out
-rw-r--r-- 1 root root 6.9M Jun 10 04:12 multi-csar.nuc.out.fna
引用
Multi-CSAR: A Multiple Reference-Based Contig Scaffolder Using Algebraic Rearrangements
Kun-Tze Chen, Hsin-Ting Shen, Chin Lung Lu
MC Syst Biol. 2018 Dec 31;12(Suppl 9):139
関連