macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

contigからscaffoldを作るツールの検証

2020 10/4 コメント追加

 

アセンブルして作ったcontigをペアリード情報やロングリード情報を使って統合し、Scaffoldを作るツールがいくつか発表されている。代表的なものをインストールしてテストした。

 

ツールのインストール

 

 テストには2種のバクテリア、Nostoc pcc 7120(Taxonomy Browser)とSynechocystis sp. PCC6803 (Taxonomy Browser)のクロモソーム配列とプラスミド配列を使う。Nostocのゲノムサイズは約6.4Mbで、Synechocystisのゲノムサイズは約3.6Mbである。プラスミド配列はSynechocystisのみ含めた。

 

配列の準備

artを使いillumina Miseqのリードをシミューレート。250bpx2、デプス100のデータを作る。以下ではNostocの流れを書いているが、Synechocystisもパラメータは同じで作った。

art_illumina -ss MSv3 -sam -p -i Nostoc_spPCC7120.fa  -l 250 -f 100 -m 600 -s 100 -o Nostoc_250_paired_

Nostoc_250_paired_1.fqとNostoc_250_paired_2.fqができる。

 

PBSIMを使いPacbioのリードをシミューレート。CLRでデプスx30のデータを作る。

pbsim --data-type CLR --depth 30 --model_qc PBSIM-PacBio-Simulator-master/data/model_qc_clr Nostoc_spPCC7120.fa

sd_001.fqができる。

 

 

アセンブル

3つの方法アセンブルを試みた。

1、illumina Miseqのペアリードをアセンブル (spadesを使用)。

spades.py --careful -k auto -t 20 -1 Nostoc_250_paired_1.fq -2 Nostoc_250_paired_2.fq -o miseq

 

f:id:kazumaxneo:20170618115415j:plain

Nostocシーケンスデータのアセンブル結果。58 contigある。縦軸はcontigの長さ(bp)。

 

f:id:kazumaxneo:20170619181019j:plain

Synechocystisシーケンスデータのアセンブル結果。81 contigある。縦軸はcontigの長さ(bp)。

 

 

2、spadesでアセンブルされたcontigを、pacbioのロングリードを使ってスキャッホールド化 (SSPACE-LONGREADを使用)。

perl SSPACE-LongRead.pl -c scaffolds.fasta -p sd_001.fq -b output

 

Nostocは1本の配列にアセンブルされた。 縦軸はcontigの長さ(bp)。 

f:id:kazumaxneo:20170619182626j:plain

Nostoc contigデータのスキャッホールド化結果。縦軸はcontigの長さ(bp)。 

 

f:id:kazumaxneo:20170619183956j:plainSynechocystisシーケンスデータのスキャッホールド化結果。 33contigある。縦軸はcontigの長さ(bp)。 

 

  

3、illumina MiseqのペアリードとPacbioのロングリードを使いハイブリッドアセンブル (spadesを使用)

spades.py --careful -k auto -t 20 -1 Nostoc_250_paired_1.fq -2 Nostoc_250_paired_2.fq --pacbiosd_001.fq -o hybrid

 

hybrid_assemblyでもNostocは1本の配列にアセンブルされた。

 

f:id:kazumaxneo:20170619181636j:plain

Nostocシーケンスデータのアセンブル結果。縦軸はcontigの長さ(bp)。 

  

f:id:kazumaxneo:20170619181446j:plain

Synechocystisシーケンスデータのアセンブル結果。10 contigある。縦軸はcontigの長さ(bp)。

 

NostocSSPACEとspadesのhybrid-assemblyでscaffold数に差はなかった。Synechocystisは、SSPACEよりspadesの方がscaffold数は減り、長く伸びた。具体的にはspadesのhybrid-assemblyだとプラスミドを7つ全てがそれぞれ1本にアセンブルされた。クロモソームは3つのscaffoldまでアセンブルされた。

 

 

 

scaffoldの評価

最後にアセンブルされたscaffoldsを評価する。QUASTのwebサーバー版を使う。

http://quast.bioinf.spbau.ru

 

試した日はサーバーの調子が悪いみたいでジョブが終わらない。quastのローカル版で評価する。

./quast.py spades_scaffolds.fasta SSPACE_LONG_scaffolds.fasta hybrid_scaffolds.fasta   -R Nostoc_spPCC7120.fa

lessで結果を表示。

less quast_results/latest/report.txt

f:id:kazumaxneo:20170618124628j:plain

 このような結果となった。

 アセンブリにエラーがないかも確認する。

python quast.py scaffolds.fasta SSPACE_LONG_scaffolds.fasta hybrid_scaffolds.fasta -R Nostoc_spPCC7120.fa

 quast_results/の最新のフォルダ(エイリアス latest)に移動し、report.htmlをsafariで開く。

f:id:kazumaxneo:20170618125307j:plain

リンクのView in Icarus contig browserをクリック。

f:id:kazumaxneo:20170618125313j:plain

 

コメント

ここではシミュレートしたリードを使っているため連続性の高い配列を作成できています。しかし実際のシークエンシングでは、短い配列、エラーが多い配列、場合によっては汚染DNAの配列なども読まれてきます。ショートリードもロングリードもあらかじめクオリティフィルタリングしておくことが重要になります。ロングリードについては、短すぎる配列を除くことも有効です(小さなプラスミドのリード情報を脱落させる可能性もあるので注意する)。並行して汚染を除く操作が必要な場合もあります。