Contig_Hunter_version_0.1.plで解析すると、-R_ggplot2というフォルダの中に4つのファイルが出力される。それをRに読み込ませる。*1
coverage.txt GC.txt
length.txt name.txt
Rのワーキングディレクトリに4つのファイルをコピーし、Rのターミナル環境で以下のコマンドを実行(ggplot2とscalesライブラリがインストールされてない場合は、予めインストールしておくこと)。
library(ggplot2)
library(scales)
( x <- read.table("coverage.txt", header=T) ) #カバレッジ
( y <- read.table("length.txt", header=T) ) #x軸も同様に入力
( z <- read.table("GC.txt", header=T) ) #3番目の要素
df <- data.frame(x=x, y=y,z)
g <- ggplot(df,aes(x = x,y = y,z))
g <- g + xlab("coverage") # x 軸ラベル
g <- g + ylab("length") # y 軸ラベル
#グラフ6 目盛りを統一
xbreaks <- c(10,100,500)
ybreaks <- seq(100,10000,1000000)
#最後に以下の1行をペースト
g + geom_point(aes(colour=z,size = GC),alpha = 0.5) + scale_size_area(name = "GC", max_size = 5) + scale_x_log10(labels=trans_format("log10",math_format(10^.x))) + scale_y_log10(labels=trans_format("log10",math_format(10^.x))) + scale_colour_gradientn(colours=rainbow(3)) + theme(axis.title.x = element_text(size=20)) + theme(axis.title.y = element_text(size=20)) + theme(axis.text.x = element_text(size=15)) + theme(axis.text.y = element_text(size=15)) + coord_cartesian(xlim=c(0.1,5000),ylim=c(100,2000000))
データに応じたグラフが得られるはず。このデータでは以下のようになった。最後に保存する。
ggsave(file="graph2.png")#セーブ
繰り返し配列やコンタミを含むより複雑なゲノムだと
これはSRAに登録されている海洋性のバクテリアのデータ。純化できていないとこのようなグラフになる。
最後はSRAに登録されているmetagenomeデータ。fastq 1つで15GBある!。samを作ると100GBを超えてしまった。メタゲノムおそるべし。
様々な生物種のDNAが混じっている。ゲノムを決めるにはプロットをまとめてbinningしていく必要がある。
メモ
シミュレーションデータ
Escherichia_coli_O157-H7 short_read x100
Escherichia_coli_O157-H7 short_read x100 + pacbio x 30
Escherichia_coli_O157-H7 short_read x100 + pacbio x 100
*1:ここに脚注を書きます