macでインフォマティクス

読者です 読者をやめる 読者になる 読者になる

ggplot2によるグラフ作成

Contig_Hunter_version_0.1.plで解析すると、-R_ggplot2というフォルダの中に4つのファイルが出力される。それをRに読み込ませる。*1

coverage.txt GC.txt

length.txt name.txt

 

Rのワーキングディレクトリに4つのファイルをコピーし、Rのターミナル環境で以下のコマンドを実行(ggplot2とscalesライブラリがインストールされてない場合は、予めインストールしておくこと)。

library(ggplot2)

library(scales)

 

( x <- read.table("coverage.txt", header=T) ) #カバレッジ

( y <- read.table("length.txt", header=T) ) #x軸も同様に入力

( z <- read.table("GC.txt", header=T) ) #3番目の要素

df <- data.frame(x=x, y=y,z)

g <- ggplot(df,aes(x = x,y = y,z))

g <- g + xlab("coverage")    # x 軸ラベル

g <- g + ylab("length")    # y 軸ラベル

#グラフ6 目盛りを統一

xbreaks <- c(10,100,500)

ybreaks <- seq(100,10000,1000000)

 

#最後に以下の1行をペースト

g + geom_point(aes(colour=z,size = GC),alpha = 0.5) + scale_size_area(name = "GC", max_size = 5) + scale_x_log10(labels=trans_format("log10",math_format(10^.x))) + scale_y_log10(labels=trans_format("log10",math_format(10^.x))) + scale_colour_gradientn(colours=rainbow(3)) + theme(axis.title.x = element_text(size=20)) + theme(axis.title.y = element_text(size=20)) + theme(axis.text.x = element_text(size=15)) + theme(axis.text.y = element_text(size=15)) + coord_cartesian(xlim=c(0.1,5000),ylim=c(100,2000000))

 

データに応じたグラフが得られるはず。このデータでは以下のようになった。最後に保存する。

ggsave(file="graph2.png")#セーブ

 

f:id:kazumaxneo:20170324134156j:plain

 

繰り返し配列やコンタミを含むより複雑なゲノムだと

f:id:kazumaxneo:20170324134239p:plain

 

これはSRAに登録されている海洋性のバクテリアのデータ。純化できていないとこのようなグラフになる。

 

 

最後はSRAに登録されているmetagenomeデータ。fastq 1つで15GBある!。samを作ると100GBを超えてしまった。メタゲノムおそるべし。

f:id:kazumaxneo:20170324134326p:plain

 

様々な生物種のDNAが混じっている。ゲノムを決めるにはプロットをまとめてbinningしていく必要がある。

 

 

 

 

 

 

 

 

 

 

 

*1:ここに脚注を書きます