ヌクレオソーム、これは147 bpのDNAがA約1.7ターンでヒストンオクタマーに包まれる真核生物のDNAパッケージングの基本単位である(Luger、et al、1997)。標的部位へのDNA結合因子のアクセスは、これらの部位がヌクレオソームフリー領域(NFR)にある場合、約10〜20倍高くなる(Liu、et al、2006)。したがって、ヌクレオソームとNFRの正確な位置を知ることは、DNA結合と遺伝子調節を理解するために非常に重要である。
現在、ヌクレオソームのマッピングに最もよく使用される方法はMNase-seqである。これは、Micrococcal nuclease消化とそれに続くディープシーケンス(MNase-seq)ある。クロマチンがMicrococcal nuclease(MNase)で消化され、残りの未消化DNAフラグメントがハイスループットシーケンスにかけられる。残念ながら、MNaseには強い配列優先性があり(Dingwall e tal、1981;Hörzand Altenburger、1981)、MNase-seq実験から生じるヌクレオソーム断片はMNase消化の程度の影響を受ける(Chereji et al、2016; Chereji、et al、2017)。さらに、穏やかな消化の後、ゲノムの大部分はまだモノヌクレオソームDNA断片(〜150bpの長さ)に分割されておらず、さらなる分析から破棄されるが、大規模な消化の後、A / Tリッチ配列を占める多くのヌクレオソームモノヌクレオソーム断片のサンプルから過剰に消化され、失われる(Chereji、et al、2017)。そのため、MNase-seq実験では、消化レベルを慎重に制御する必要があり、特に複数のサンプルを比較する場合は、さまざまな程度の消化を常に考慮する必要がある。
ここでは、ゲノムデータの2D占有率(2DO)をプロットするツールであるplot2DOを紹介する。これは、MNase-seqデータの初期品質チェックとして消化の程度を評価するだけでなく、MNase消化キネティクスからゲノムの機能領域の近くでのヌクレオソーム組織の洞察を得るためにも役立つ。
Plot2DOは、Rで記述されたオープンソースパッケージであり、ターミナルのコマンドラインから起動できる。ユーザーは、プロットする分布のタイプ(未消化DNAフラグメントの占有率/カバレッジ、フラグメント中心の分布(ヌクレオソームダイアド)、またはフラグメントの5 '/ 3'末端の分布)、アラインメント(転写開始サイト(TSS)、転写終結サイト(TTS)、+ 1ヌクレオソーム、または特定のユーザー提供サイトのリスト)を選択する。ユーザーは、ヌクレオソーム集団の代表として使用されるフラグメントのサイズ制限を指定することにより、プロットされるウィンドウの幅を選択でき、消化されていないDNAのin silicoサイズ選択も実行できる。Plot2DOを使用すると、さまざまな生物(酵母、ハエ、mouse、線虫、マウス、およびヒト)から生成され、以下のゲノムバージョンのいずれかにマッピングされたペアエンドシーケンスデータを調査できる:sacCer3、dm3、dm6、ce10、ce11、 mm9、mm10、hg18、hg19。
デモデータ(bam)
インストール
CRANとBioconducterからたくさんのパッケージが導入されるため、サブのmacosマシン(mac pro2012, 10.13)でテストした。(*1)
git clone https://github.com/rchereji/plot2DO.git
cd plot2DO/
Rscript plot2DO_setup.R
> Rscript plot2DO.R --help
$ Rscript plot2DO.R --help
Usage: plot2DO.R [options]
Options:
-f FILE, --file=FILE
Name of the file containing aligned sequencing data [options: BAM or BED file]
-t TYPE, --type=TYPE
Type of distribution to plot [options: occ, dyads, fivePrime_ends, threePrime_ends; default = occ]
-g GENOME, --genome=GENOME
Genome version
[options: sacCer3 (default) (S. cerevisiae); EF2 (S. pombe); dm3, dm6 (D. melanogaster);
ce10, ce11 (C. elegans); mm9, mm10 (M. musculus);
hg18, hg19, hg38 (H. sapiens); tair10 (A. thaliana)]
-r REFERENCE, --reference=REFERENCE
Reference points to be aligned [options: TSS (default), TTS, Plus1]
-s SITES, --sites=SITES
User-provided sites to be aligned (BED file)
-a ALIGN, --align=ALIGN
Points of the provided intervals to be aligned? [options: center (default), fivePrime, threePrime]
--siteLabel=SITELABEL
Label for the aligned sites [default = Sites]
-l MINLENGTH, --minLength=MINLENGTH
The smallest DNA fragment to be considered [default = 50]
-L MAXLENGTH, --maxLength=MAXLENGTH
The largest DNA fragment to be considered [default = 200]
-u UPSTREAM, --upstream=UPSTREAM
Length of the upstream region to be plotted [default = 1000]
-d DOWNSTREAM, --downstream=DOWNSTREAM
Length of the downstream region to be plotted [default = 1000]
-m COLORSCALEMAX, --colorScaleMax=COLORSCALEMAX
Maximum value on the color scale (e.g. 0.02)
--simplifyPlot=SIMPLIFYPLOT
Simplify the plot (show only the 2D heat map) [options: on, off (default)]
--squeezePlot=SQUEEZEPLOT
Simplify the plot and squeeze the heat map [options: on, off (default)]
-h, --help
Show this help message and exit
実行方法
plot2DOのほとんどすべての引数は任意。必須の引数は"--file=" (or "-f") で指定するアライメントのBAMファイルのみになる。リファレンスは、Saccharomyces cerevisiae S288Cがデフォルト対応している。 "--genome="で変更可能。
Rscript plot2DO.R --file=input.bam --genome=sacCer3
- --genome=<Genome version>
[options: sacCer3 (default) (S. cerevisiae); EF2 (S. pombe); dm3, dm6 (D. melanogaster);ce10, ce11 (C. elegans); mm9, mm10 (M. musculus); hg18, hg19, hg38 (H. sapiens); tair10 (A. thaliana)]
出力
出力を見てみる(macos)。
open output/2D_occ_TSS/OCC_matrix.TSS.50_200.yeast_50U_MNase_SRR3649301.5M_reads.pdf \
-a /Applications/Preview.app/
3つのパネル が生成される。
(1)2D占有率(2DO)プロット(中央のヒートマップ)。指定された長さのDNAフラグメントの相対カバレッジを表す。ここでは転写開始部位(TSS)が基準点で、TSS周辺1 kbの範囲が含まれている。 赤色はカバレッジが高いことを示し、青色はカバレッジがゼロであることを示す。
(2)ヒートマップに示されているすべての長さのDNAフラグメントを積み重ねることによって生成される1次元の占有率(上部パネル)。
(3)シーケンスリードのサンプル全体からの各DNAフラグメントサイズに対応するパーセンテージを示すフラグメント長ヒストグラム(右パネル)。
複数描画して並べるなら"squeezePlot=on"フラグを立てて1パネル出力する。 上限は統一する。
#No.1
Rscript plot2DO.R --file=yeast_50U_MNase_SRR3649301.5M_reads.bam --squeezePlot=on -g sacCer3 -r Plus1 -m 0.03 -u 100 -d 100
#No.2
Rscript plot2DO.R --file=yeast_50U_MNase_SRR3649301.5M_reads.bam --squeezePlot=on -g sacCer3 -r Plus1 -m 0.03 -u 100 -d 100
- -u Length of the upstream region to be plotted [default = 1000]
- -m Maximum value on the color scale (e.g. 0.02)
- --squeezePlot Simplify the plot and squeeze the heat map [default: off ]
引用
plot2DO: a tool to assess the quality and distribution of genomic data
Răzvan V. Chereji
bioRxiv, Posted September 15, 2017.
*1
環境を汚したくないなら、rockerプロジェクトのrstudioなどを使う手もあります。また記事にします。
関連