contigからScaffoldを作るツールがいくつか発表されているので試してみる。
SSPACE-LONGREAD
ダウンロードリンク
https://www.baseclear.com/genomics/bioinformatics/basetools/SSPACE-longread
ダウンロードには上記リンクから名前や所属の入力が必要。登録するとダウンロードリンクに飛び、SSPACE-STANDARDやSSPACE-LONGREADなどをダウンロードできるようになっている。
インストール
本体はperlのスクリプトである。macでもperlのモジュール
Perl4::CoreLibs - search.cpan.orgを入れておくとランは可能だったが、scaffoldingが全く起きなかったので多分正常に動いてないと考えられる。早々に諦めcent OSにインストールした。
本体を公式リンクからダウンロードして解凍し、perl SSPACE-LongRead.plをフルパスで打ち込めばランできる。
ラン
perl SSPACE-LongRead.pl -t 12 -c contig.fasta -p long_read.fa -b test
- -c Fasta file containing contig sequences used for scaffolding (REQUIRED)
- -p File containing PacBio CLR sequences to be used scaffolding (REQUIRED)
- -b Output folder name where the results are stored (optional, default -b 'PacBio_scaffolder_results')
- -t The number of threads to run BLASR with
-pでPacbioなどのロングリードを指定する。Pacbioのロングリードシーケンスデータでなくてもfastaファイルであれば利用可能で、例えばナノポアリードも使うことができる。
SMIS
サンガー研の開発した、nanoporeやPacbioのロングリードを使ってScaffoldを構築するツール。
http://www.sanger.ac.uk/science/tools/smis
公式サイトからbinaryがダウンロードできる(リンク)。ただしmacでは動かないのでcent OSでランする。
ラン
./smis_pipeline -nodes 20 -score 50 -len 2000 -step 200 -contig 3000 -edge 5 <ONT_fasta/q_file> <assembly_fasta/q_file> <scaffold-output.fasta_file>
- nodes - number of CPUs requested
- score - minimum smith-waterman alignment score to report a hit
- len - length of fregments of fake mate pairs
- step - jump length to cut out fregments
- contig - minimum contig length to be included for scaffolding
- edge - minimum number of edges to confirm a merge
となっている。smis_pipelineはフルパスで指定しないとエラーになった。
OPERA-LG
OPERA-LGは、ショートリードのペアリード情報やロングリード情報を使ってcontigからscaffoldを構築するツール。macでもインストール可能なようだが、依存ツールの関係でcent OSに入れた。
ソースコードをダウンロードして、OPERA-LGのルートディレクトリで
make install
だけでビルドできる。
ランするには、bwa、samtools、blasr、OPERA-LGのbin/にパスが通っている必要がある。マニュアルHPにはテストデータも用意されている。
ロングリード情報を使いscaffoldを作るには、contigファイルとロングリードファイルの他に、contigを作った時のペアリードファイルも必要である。
例えばランは以下のようなコマンドになる。
perl bin/OPERA-long-read.pl \
--contig-file contigs.fa \
--illumina-read1 illumina_1.fastq.gz \
--illumina-read2 illumina_2.fastq.gz \
--long-read-file nanopore.fa \
--output-prefix opera-lr \
--output-directory RESULTS
--contig-fileでショートリードから作ったcontigファイルを指定する。
追記
ファイルがないと怒られた場合、フルパスで指定する。
その他、NaS(http://www.genoscope.cns.fr/externe/nas/)などもテストしたかったが、Nasのランに必要なNewblerのスクリプトがRocheからダンローどできなくなっていたので諦めた。
ツールを使って見た結果は以下のエントリーを参考にしてください。
引用
SSPACE-LongRead: scaffolding bacterial draft genomes using long read sequence information
Marten Boetzer and Walter Pirovano
BMC Bioinformatics201415:211 DOI: 10.1186
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-15-211
Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology
Adam C. English*, Stephen Richards, Yi Han, Min Wang, Vanesa Vee, Jiaxin Qu, Xiang Qin, Donna M. Muzny, Jeffrey G. Reid, Kim C. Worley, Richard A. Gibbs
PLoS ONE 7(11): e47768. doi:10.1371
Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology
OPERA-LG: efficient and exact scaffolding of large, repeat-rich eukaryotic genomes with performance guarantees
Song Gao†, Denis Bertrand†, Burton K. H. Chia and Niranjan NagarajanE Genome Biology201617:102 DOI: 10.1186
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0951-y
QUAST: quality assessment tool for genome assemblies
Alexey Gurevich Vladislav Saveliev Nikolay Vyahhi Glenn Tesler
Bioinformatics (2013) 29 (8): 1072-1075. DOI:
https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btt086