超並列シーケンシング技術の継続的な開発により、生成されるゲノムデータの量が指数関数的に増加した(Kodama et al、2012)。この成長により、科学者はますます大規模なコホートレベルのゲノムデータセットを調査できるようになった。直感的な視覚化の生成は、パターンを認識し、研究対象のコホートの基礎となる生物学的特性を調査する上で重要な要素である。ただし、データ生成とその後の視覚化と解釈の間には、重大なボトルネックが存在する(Good et al、2014)。さらに、これらのデータの効果的なコミュニケーションのためにpublication品質の図を生成するには、通常、手動作成やサードパーティ製ソフトウェアを使用した広範なグラフィック操作などの特別な方法が必要になる。このプロセスは時間がかかり、自動化/再現が困難である。さらに、複数の種をサポートするソフトウェアがないため、このプロセスはさらに困難になる。ここでは、これらの問題に対処するためのバイオコンダクターパッケージであるGenVisRを紹介する。 GenVisRは、関心のある複数の種の3つのカテゴリ(スモールバリアント、コピー数変化、データ品質)で複雑なゲノムデータを視覚化するための、使いやすく柔軟で包括的なツールスイートを提供する。
manual
https://bioconductor.org/packages/release/bioc/vignettes/GenVisR/inst/doc/Intro.html
インストール
macos10.14にてRstudioを使ってテストした。
#bioconducter(link)
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("GenVisR")
#Documenation
> browseVignettes("GenVisR")
テストラン
ここではパネルシーケンスのような特定の遺伝子セットのみの変異解析のサマリー図として有用なwaterfall plot図作成の流れをまとめる。
論文(2)のsupplentaryデータ(link)をダウンロード、タブ区切りに変換する。
wget https://clincancerres.aacrjournals.org/highwire/filestream/132429/field_highwire_adjunct_files/4/152934_1_supp_3139930_n6h2q6.xlsx
#csvtk(*1)を使ってxlsx=> csv => tsv変換。excelで別名保存してもOK
csvtk xlsx2csv 152934_1_supp_3139930_n6h2q6.xlsx | csvtk csv2tab - > supplementary_data.tsv
変換したファイル
分かりにくいので必要なカラム以外消す(=> 10列になった)。
さらに先頭7行に絞った。読み込むのは以下の様なTSVファイルになる。
patient | chromosome name | start | stop | reference | variant | type | gene name | trv type | amino acid change |
2 | 10 | 89717607 | 89717607 | C | G | SNP | PTEN | splice_region | e7-3 |
2 | 11 | 65269699 | 65269699 | T | C | SNP | MALAT1 | rna | NULL |
2 | X | 70357160 | 70357160 | C | T | SNP | MED12 | missense | p.S1892F |
4 | 21 | 36164332 | 36164333 | - | GGCT | INS | RUNX1 | frame_shift_ins | p.W457fs |
4 | 3 | 178936091 | 178936091 | G | A | SNP | PIK3CA | missense | p.E545K |
4 | 4 | 153249384 | 153249384 | C | T | SNP | FBXW7 | missense | p.R465H |
(この表をコピペ保存してRに読み込むと素早くテストできます)
このファイルを~/Downloads/test.tsvに保存した。
Rを立ち上げる。ここではRstudio社のRstudio (free版) の最新版を使った。
#GenVisRロード
library(GenVisR)
#データの読み込み。上でCSV出力しているならsep=","に変える。
mutation_data=read.table(file="~/Downloads/test.tsv", header=TRUE, sep="\t")
#sample、gene_name、trv_typeの列指定。上の7行matrixファイルだと1、8、9列目。
colnames(mutation_data)[c(1,8,9)]=c("sample","gene_name","trv_type")
#PDFでwaterfall図example1.pdfを作成、~/Downloadsに保存
pdf(file="~/Downloads/example1.pdf", width=12, height=8)
#waterfall関数を使う
waterfall(mutation_data, fileType="MGI", mainXlabel=TRUE, mainLabelCol="amino.acid.change", mainLabelSize=2)
#閉じる
dev.off()
出力
サンプルがn=2(patient#2, 4)しかないため、カラムは2つのみ表示されている。最も頻繁に変異する遺伝子のバリアントが一番上にランク付けされ、階層的にパネル配置され、左端にそのヒストグラムも表示される。上には一連の症例にわたって観察されたtransition変異とtransversion変異の割合も視覚化されている。これは、特定の疾患の変異でtransition変異とtransversion変異の偏りがあるため、この仕分けの視覚化が有用であるとされている。右端には変異の種類の判例が表示されている。変異の種類で色が異なり、変異の種類ごとに色が違う。判例によると、沢山ある緑パネルはMissense変異。
上の論文のsupplementary table全データを視覚化すると以下の様になる。
他にも様々なタイプの図を出力できます。array CGHのコホートのcopy number variationsを視覚化する関数もあったりします。manualを確認してください。
引用
1 GenVisR: Genomic Visualizations in R
Skidmore ZL, Wagner AH, Lesurf R, Campbell KM, Kunisaki J, Griffith OL, Griffith M
Bioinformatics. 2016 Oct 1;32(19):3012-4
2 A Phase I Trial of BKM120 (Buparlisib) in Combination with Fulvestrant in Postmenopausal Women with Estrogen Receptor-Positive Metastatic Breast Cancer
Ma CX, Luo J, Naughton M, Ademuyiwa F, Suresh R, Griffith M, Griffith OL, Skidmore ZL, Spies NC, Ramu A, Trani L, Pluard T, Nagaraj G, Thomas S, Guo Z, Hoog J, Han J, Mardis E, Lockhart C, Ellis MJ
Clin Cancer Res. 2016 Apr 1;22(7):1583-91
*1
conda install -c bioconda csvtk
参考ページ