ガン遺伝子パネルなどの変異をまとめた図を生成する GenVisRのwaterfall

　超並列シーケンシング技術の継続的な開発により、生成されるゲノムデータの量が指数関数的に増加した（Kodama et al、2012）。この成長により、科学者はますます大規模なコホートレベルのゲノムデータセットを調査できるようになった。直感的な視覚化の生成は、パターンを認識し、研究対象のコホートの基礎となる生物学的特性を調査する上で重要な要素である。ただし、データ生成とその後の視覚化と解釈の間には、重大なボトルネックが存在する（Good et al、2014）。さらに、これらのデータの効果的なコミュニケーションのためにpublication品質の図を生成するには、通常、手動作成やサードパーティ製ソフトウェアを使用した広範なグラフィック操作などの特別な方法が必要になる。このプロセスは時間がかかり、自動化/再現が困難である。さらに、複数の種をサポートするソフトウェアがないため、このプロセスはさらに困難になる。ここでは、これらの問題に対処するためのバイオコンダクターパッケージであるGenVisRを紹介する。 GenVisRは、関心のある複数の種の3つのカテゴリ（スモールバリアント、コピー数変化、データ品質）で複雑なゲノムデータを視覚化するための、使いやすく柔軟で包括的なツールスイートを提供する。

manual

https://bioconductor.org/packages/release/bioc/vignettes/GenVisR/inst/doc/Intro.html

インストール

macos10.14にてRstudioを使ってテストした。

本体　Github

#bioconducter(link)
if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager") 
BiocManager::install("GenVisR")

#Documenation

> browseVignettes("GenVisR")

テストラン

ここではパネルシーケンスのような特定の遺伝子セットのみの変異解析のサマリー図として有用なwaterfall plot図作成の流れをまとめる。

論文（2）のsupplentaryデータ（link）をダウンロード、タブ区切りに変換する。

wget https://clincancerres.aacrjournals.org/highwire/filestream/132429/field_highwire_adjunct_files/4/152934_1_supp_3139930_n6h2q6.xlsx

#csvtk(*1)を使ってxlsx=> csv => tsv変換。excelで別名保存してもOK
csvtk xlsx2csv 152934_1_supp_3139930_n6h2q6.xlsx | csvtk csv2tab - > supplementary_data.tsv

変換したファイル

f:id:kazumaxneo:20191217225146p:plain

分かりにくいので必要なカラム以外消す（=> 10列になった）。

さらに先頭7行に絞った。読み込むのは以下の様なTSVファイルになる。

patient	chromosome name	start	stop	reference	variant	type	gene name	trv type	amino acid change
2	10	89717607	89717607	C	G	SNP	PTEN	splice_region	e7-3
2	11	65269699	65269699	T	C	SNP	MALAT1	rna	NULL
2	X	70357160	70357160	C	T	SNP	MED12	missense	p.S1892F
4	21	36164332	36164333	-	GGCT	INS	RUNX1	frame_shift_ins	p.W457fs
4	3	178936091	178936091	G	A	SNP	PIK3CA	missense	p.E545K
4	4	153249384	153249384	C	T	SNP	FBXW7	missense	p.R465H

（この表をコピペ保存してRに読み込むと素早くテストできます）

このファイルを~/Downloads/test.tsvに保存した。

Rを立ち上げる。ここではRstudio社のRstudio (free版) の最新版を使った。

#GenVisRロード
library(GenVisR)
#データの読み込み。上でCSV出力しているならsep=","に変える。
mutation_data=read.table(file="~/Downloads/test.tsv", header=TRUE, sep="\t")

#sample、gene_name、trv_typeの列指定。上の7行matrixファイルだと１、8、9列目。
colnames(mutation_data)[c(1,8,9)]=c("sample","gene_name","trv_type")

#PDFでwaterfall図example1.pdfを作成、~/Downloadsに保存
pdf(file="~/Downloads/example1.pdf", width=12, height=8)
#waterfall関数を使う
waterfall(mutation_data, fileType="MGI", mainXlabel=TRUE, mainLabelCol="amino.acid.change", mainLabelSize=2) 
#閉じる
dev.off()

出力

f:id:kazumaxneo:20191217231003p:plain

サンプルがn=2（patient#2, 4）しかないため、カラムは2つのみ表示されている。最も頻繁に変異する遺伝子のバリアントが一番上にランク付けされ、階層的にパネル配置され、左端にそのヒストグラムも表示される。上には一連の症例にわたって観察されたtransition変異とtransversion変異の割合も視覚化されている。これは、特定の疾患の変異でtransition変異とtransversion変異の偏りがあるため、この仕分けの視覚化が有用であるとされている。右端には変異の種類の判例が表示されている。変異の種類で色が異なり、変異の種類ごとに色が違う。判例によると、沢山ある緑パネルはMissense変異。

上の論文のsupplementary table全データを視覚化すると以下の様になる。

f:id:kazumaxneo:20191217231122p:plain

他にも様々なタイプの図を出力できます。array CGHのコホートのcopy number variationsを視覚化する関数もあったりします。manualを確認してください。

引用
1 GenVisR: Genomic Visualizations in R
Skidmore ZL, Wagner AH, Lesurf R, Campbell KM, Kunisaki J, Griffith OL, Griffith M

Bioinformatics. 2016 Oct 1;32(19):3012-4

2 A Phase I Trial of BKM120 (Buparlisib) in Combination with Fulvestrant in Postmenopausal Women with Estrogen Receptor-Positive Metastatic Breast Cancer
Ma CX, Luo J, Naughton M, Ademuyiwa F, Suresh R, Griffith M, Griffith OL, Skidmore ZL, Spies NC, Ramu A, Trani L, Pluard T, Nagaraj G, Thomas S, Guo Z, Hoog J, Han J, Mardis E, Lockhart C, Ellis MJ

Clin Cancer Res. 2016 Apr 1;22(7):1583-91

conda install -c bioconda csvtk

参考ページ

https://www.biostars.org/p/181159/