macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

contigからscaffoldを作るツールの検証

 

アセンブルして作ったcontigをペアリード情報やロングリード情報を使って統合し、Scaffoldを作るツールがいくつか発表されている。代表的なものをインストールしてテストした。

 

ツールのインストー

 

 テストには2種のバクテリア、Nostoc pcc 7120(Taxonomy Browser)とSynechocystis sp. PCC6803 (Taxonomy Browser)のクロモソーム配列とプラスミド配列を使う。Nostocのゲノムサイズは約6.4Mbで、Synechocystisのゲノムサイズは約3.6Mbである。プラスミド配列はSynechocystisのみ含めた。

 

配列の準備

artを使いillumina Miseqのリードをシミューレート。250bpx2、デプス100のデータを作る。以下ではNostocの流れを書いているが、Synechocystisもパラメータは同じで作った。

art_illumina -ss MSv3 -sam -p -i Nostoc_spPCC7120.fa  -l 250 -f 100 -m 600 -s 100 -o Nostoc_250_paired_

Nostoc_250_paired_1.fqとNostoc_250_paired_2.fqができる。

 

PBSIMを使いPacbioのリードをシミューレート。CLRでデプスx30のデータを作る。

pbsim --data-type CLR --depth 30 --model_qc PBSIM-PacBio-Simulator-master/data/model_qc_clr Nostoc_spPCC7120.fa

sd_001.fqができる。

 

 

アセンブル

3つの方法アセンブルを試みた。

1、illumina Miseqのペアリードをアセンブル (spadesを使用)。

spades.py --careful -k auto -t 20 -1 Nostoc_250_paired_1.fq -2 Nostoc_250_paired_2.fq -o miseq

 

f:id:kazumaxneo:20170618115415j:plain

Nostocシーケンスデータのアセンブル結果。58 contigある。縦軸はcontigの長さ(bp)。

 

f:id:kazumaxneo:20170619181019j:plain

Synechocystisシーケンスデータのアセンブル結果。81 contigある。縦軸はcontigの長さ(bp)。

 

 

2、spadesでアセンブルされたcontigを、pacbioのロングリードを使ってスキャッホールド化 (SSPACE-LONGREADを使用)。

perl SSPACE-LongRead.pl -c scaffolds.fasta -p sd_001.fq -b output

 

Nostocは1本の配列にアセンブルされた。 縦軸はcontigの長さ(bp)。 

f:id:kazumaxneo:20170619182626j:plain

Nostoc contigデータのスキャッホールド化結果。縦軸はcontigの長さ(bp)。 

 

f:id:kazumaxneo:20170619183956j:plainSynechocystisシーケンスデータのスキャッホールド化結果。 33contigある。縦軸はcontigの長さ(bp)。 

 

  

3、illumina MiseqのペアリードとPacbioのロングリードを使いハイブリッドアセンブル (spadesを使用)

spades.py --careful -k auto -t 20 -1 Nostoc_250_paired_1.fq -2 Nostoc_250_paired_2.fq --pacbiosd_001.fq -o hybrid

 

hybrid_assemblyでもNostocは1本の配列にアセンブルされた。

 

f:id:kazumaxneo:20170619181636j:plain

Nostocシーケンスデータのアセンブル結果。縦軸はcontigの長さ(bp)。 

  

f:id:kazumaxneo:20170619181446j:plain

Synechocystisシーケンスデータのアセンブル結果。10 contigある。縦軸はcontigの長さ(bp)。

 

NostocSSPACEとspadesのhybrid-assemblyでscaffold数に差はなかった。Synechocystisは、SSPACEよりspadesの方がscaffold数は減り、長く伸びた。具体的にはspadesのhybrid-assemblyだとプラスミドを7つ全てがそれぞれ1本にアセンブルされた。クロモソームは3つのscaffoldまでアセンブルされた。

 

 

 

scaffoldの評価

最後にアセンブルされたscaffoldsを評価する。QUASTのwebサーバー版を使う。

http://quast.bioinf.spbau.ru

 

試した日はサーバーの調子が悪いみたいでジョブが終わらない。quastのローカル版で評価する。

./quast.py spades_scaffolds.fasta SSPACE_LONG_scaffolds.fasta hybrid_scaffolds.fasta   -R Nostoc_spPCC7120.fa

lessで結果を表示。

less quast_results/latest/report.txt

f:id:kazumaxneo:20170618124628j:plain

 このような結果となった。

 アセンブリにエラーがないかも確認する。

python quast.py scaffolds.fasta SSPACE_LONG_scaffolds.fasta hybrid_scaffolds.fasta -R Nostoc_spPCC7120.fa

 quast_results/の最新のフォルダ(エイリアス latest)に移動し、report.htmlをsafariで開く。

f:id:kazumaxneo:20170618125307j:plain

リンクのView in Icarus contig browserをクリック。

f:id:kazumaxneo:20170618125313j:plain