macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

contigからScaffoldを作るツール

contigからScaffoldを作るツールがいくつか発表されているので試してみる。

 

 

SSPACE-LONGREAD

ダウンロードリンク

https://www.baseclear.com/genomics/bioinformatics/basetools/SSPACE-longread

ダウンロードには上記リンクから名前や所属の入力が必要。登録するとダウンロードリンクに飛び、SSPACE-STANDARDやSSPACE-LONGREADなどをダウンロードできるようになっている。

インストー

本体はperlスクリプトである。macでもperlのモジュール

Perl4::CoreLibs - search.cpan.orgを入れておくとランは可能だったが、scaffoldingが全く起きなかったので多分正常に動いてないと考えられる。早々に諦めcent OSにインストールした。

本体を公式リンクからダウンロードして解凍し、perl SSPACE-LongRead.plをフルパスで打ち込めばランできる。

 

 ラン

perl SSPACE-LongRead.pl -t 12 -c contig.fasta -p long_read.fa -b test
  • -c  Fasta file containing contig sequences used for scaffolding (REQUIRED)
  • -p  File containing PacBio CLR sequences to be used scaffolding (REQUIRED)
  • -b  Output folder name where the results are stored (optional, default -b 'PacBio_scaffolder_results')
  • -t  The number of threads to run BLASR with

-pでPacbioなどのロングリードを指定する。Pacbioのロングリードシーケンスデータでなくてもfastaファイルであれば利用可能で、例えばナノポアリードも使うことができる。

 

 

 

 

 

 

SMIS

サンガー研の開発した、nanoporeやPacbioのロングリードを使ってScaffoldを構築するツール。

http://www.sanger.ac.uk/science/tools/smis

 

公式サイトからbinaryがダウンロードできる(リンク)。ただしmacでは動かないのでcent OSでランする。

 

 ラン

./smis_pipeline -nodes 20 -score 50 -len 2000 -step 200 -contig 3000 -edge 5 <ONT_fasta/q_file> <assembly_fasta/q_file> <scaffold-output.fasta_file> 
  • nodes - number of CPUs requested
  • score - minimum smith-waterman alignment score to report a hit
  • len - length of fregments of fake mate pairs
  • step - jump length to cut out fregments
  • contig - minimum contig length to be included for scaffolding
  • edge - minimum number of edges to confirm a merge

となっている。smis_pipelineはフルパスで指定しないとエラーになった。

 

 

OPERA-LG

ダウンロードリンク

マニュアル 

OPERA-LGは、ショートリードのペアリード情報やロングリード情報を使ってcontigからscaffoldを構築するツール。macでもインストール可能なようだが、依存ツールの関係でcent OSに入れた。

 

ソースコードをダウンロードして、OPERA-LGのルートディレクトリで

make install

だけでビルドできる。

ランするには、bwa、samtools、blasr、OPERA-LGのbin/にパスが通っている必要がある。マニュアルHPにはテストデータも用意されている。 

 

ロングリード情報を使いscaffoldを作るには、contigファイルとロングリードファイルの他に、contigを作った時のペアリードファイルも必要である。

例えばランは以下のようなコマンドになる。

perl bin/OPERA-long-read.pl \
--contig-file contigs.fa \
--illumina-read1 illumina_1.fastq.gz \
--illumina-read2 illumina_2.fastq.gz \
--long-read-file nanopore.fa \
--output-prefix opera-lr \
--output-directory RESULTS

--contig-fileでショートリードから作ったcontigファイルを指定する。

 

追記

ファイルがないと怒られた場合、フルパスで指定する。

 

 

 

その他、NaShttp://www.genoscope.cns.fr/externe/nas/)などもテストしたかったが、Nasのランに必要なNewblerのスクリプトがRocheからダンローどできなくなっていたので諦めた。

 

 

ツールを使って見た結果は以下のエントリーを参考にしてください。

 

 

 

 

 

 

 

 

 

引用

SSPACE-LongRead: scaffolding bacterial draft genomes using long read sequence information

Marten Boetzer and Walter Pirovano

BMC Bioinformatics201415:211 DOI: 10.1186

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-15-211

 

Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology

Adam C. English*, Stephen Richards, Yi Han, Min Wang, Vanesa Vee, Jiaxin Qu, Xiang Qin, Donna M. Muzny, Jeffrey G. Reid, Kim C. Worley, Richard A. Gibbs

PLoS ONE 7(11): e47768. doi:10.1371

Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology

 

OPERA-LG: efficient and exact scaffolding of large, repeat-rich eukaryotic genomes with performance guarantees

Song Gao†, Denis Bertrand†, Burton K. H. Chia and Niranjan NagarajanE Genome Biology201617:102 DOI: 10.1186

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0951-y

 

 

QUAST: quality assessment tool for genome assemblies 

Alexey Gurevich Vladislav Saveliev Nikolay Vyahhi Glenn Tesler

Bioinformatics (2013) 29 (8): 1072-1075. DOI: 

https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btt086