macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(モデル生物 )MNase-seqやchip-seeのアラインメントを2D plotで視覚化する plot2DO

 

 ヌクレオソーム、これは147 bpのDNAがA約1.7ターンでヒストンオクタマーに包まれる真核生物のDNAパッケージングの基本単位である(Luger、et al、1997)。標的部位へのDNA結合因子のアクセスは、これらの部位がヌクレオソームフリー領域(NFR)にある場合、約10〜20倍高くなる(Liu、et al、2006)。したがって、ヌクレオソームとNFRの正確な位置を知ることは、DNA結合と遺伝子調節を理解するために非常に重要である。
 現在、ヌクレオソームマッピングに最もよく使用される方法はMNase-seqである。これは、Micrococcal nuclease消化とそれに続くディープシーケンス(MNase-seq)ある。クロマチンがMicrococcal nuclease(MNase)で消化され、残りの未消化DNAフラグメントがハイスループットシーケンスにかけられる。残念ながら、MNaseには強い配列優先性があり(Dingwall e tal、1981;Hörzand Altenburger、1981)、MNase-seq実験から生じるヌクレオソーム断片はMNase消化の程度の影響を受ける(Chereji et al、2016; Chereji、et al、2017)。さらに、穏やかな消化の後、ゲノムの大部分はまだモノヌクレオソームDNA断片(〜150bpの長さ)に分割されておらず、さらなる分析から破棄されるが、大規模な消化の後、A / Tリッチ配列を占める多くのヌクレオソームモノヌクレオソーム断片のサンプルから過剰に消化され、失われる(Chereji、et al、2017)。そのため、MNase-seq実験では、消化レベルを慎重に制御する必要があり、特に複数のサンプルを比較する場合は、さまざまな程度の消化を常に考慮する必要がある。
 ここでは、ゲノムデータの2D占有率(2DO)をプロットするツールであるplot2DOを紹介する。これは、MNase-seqデータの初期品質チェックとして消化の程度を評価するだけでなく、MNase消化キネティクスからゲノムの機能領域の近くでのヌクレオソーム組織の洞察を得るためにも役立つ。

 Plot2DOは、Rで記述されたオープンソースパッケージであり、ターミナルのコマンドラインから起動できる。ユーザーは、プロットする分布のタイプ(未消化DNAフラグメントの占有率/カバレッジ、フラグメント中心の分布(ヌクレオソームダイアド)、またはフラグメントの5 '/ 3'末端の分布)、アラインメント(転写開始サイト(TSS)、転写終結サイト(TTS)、+ 1ヌクレオソーム、または特定のユーザー提供サイトのリスト)を選択する。ユーザーは、ヌクレオソーム集団の代表として使用されるフラグメントのサイズ制限を指定することにより、プロットされるウィンドウの幅を選択でき、消化されていないDNAのin silicoサイズ選択も実行できる。Plot2DOを使用すると、さまざまな生物(酵母、ハエ、mouse、線虫、マウス、およびヒト)から生成され、以下のゲノムバージョンのいずれかにマッピングされたペアエンドシーケンスデータを調査できる:sacCer3、dm3、dm6、ce10、ce11、 mm9、mm10、hg18、hg19。

 

デモデータ(bam)

https://onedrive.live.com/?authkey=%21ADHdTJiN14nIAFw&id=7713D31A609D5B2F%21102271&cid=7713D31A609D5B2F

 

インストール

CRANとBioconducterからたくさんのパッケージが導入されるため、サブのmacosマシン(mac pro2012, 10.13)でテストした。(*1)

本体 Github

git clone https://github.com/rchereji/plot2DO.git
cd plot2DO/
Rscript plot2DO_setup.R

Rscript plot2DO.R --help 

$ Rscript plot2DO.R --help  

Usage: plot2DO.R [options]

 

 

Options:

-f FILE, --file=FILE

Name of the file containing aligned sequencing data [options: BAM or BED file]

 

-t TYPE, --type=TYPE

Type of distribution to plot [options: occ, dyads, fivePrime_ends, threePrime_ends; default = occ]

 

-g GENOME, --genome=GENOME

Genome version

[options: sacCer3 (default) (S. cerevisiae); EF2 (S. pombe); dm3, dm6 (D. melanogaster);

ce10, ce11 (C. elegans); mm9, mm10 (M. musculus);

hg18, hg19, hg38 (H. sapiens); tair10 (A. thaliana)]

 

-r REFERENCE, --reference=REFERENCE

Reference points to be aligned [options: TSS (default), TTS, Plus1]

 

-s SITES, --sites=SITES

User-provided sites to be aligned (BED file)

 

-a ALIGN, --align=ALIGN

Points of the provided intervals to be aligned? [options: center (default), fivePrime, threePrime]

 

--siteLabel=SITELABEL

Label for the aligned sites [default = Sites]

 

-l MINLENGTH, --minLength=MINLENGTH

The smallest DNA fragment to be considered [default = 50]

 

-L MAXLENGTH, --maxLength=MAXLENGTH

The largest DNA fragment to be considered [default = 200]

 

-u UPSTREAM, --upstream=UPSTREAM

Length of the upstream region to be plotted [default = 1000]

 

-d DOWNSTREAM, --downstream=DOWNSTREAM

Length of the downstream region to be plotted [default = 1000]

 

-m COLORSCALEMAX, --colorScaleMax=COLORSCALEMAX

Maximum value on the color scale (e.g. 0.02)

 

--simplifyPlot=SIMPLIFYPLOT

Simplify the plot (show only the 2D heat map) [options: on, off (default)]

 

--squeezePlot=SQUEEZEPLOT

Simplify the plot and squeeze the heat map [options: on, off (default)]

 

-h, --help

Show this help message and exit

 

 

 

 

実行方法

plot2DOのほとんどすべての引数は任意。必須の引数は"--file=" (or "-f") で指定するアライメントのBAMファイルのみになる。リファレンスは、Saccharomyces cerevisiae S288Cがデフォルト対応している。 "--genome="で変更可能。

Rscript plot2DO.R --file=input.bam --genome=sacCer3
  • --genome=<Genome version>      

 [options: sacCer3 (default) (S. cerevisiae); EF2 (S. pombe); dm3, dm6 (D. melanogaster);ce10, ce11 (C. elegans); mm9, mm10 (M. musculus); hg18, hg19, hg38 (H. sapiens); tair10 (A. thaliana)]

出力

f:id:kazumaxneo:20200229170255p:plain

 

出力を見てみる(macos)。

open output/2D_occ_TSS/OCC_matrix.TSS.50_200.yeast_50U_MNase_SRR3649301.5M_reads.pdf \
-a /Applications/Preview.app/ 

f:id:kazumaxneo:20200229161219p:plain

3つのパネル が生成される。

(1)2D占有率(2DO)プロット(中央のヒートマップ)。指定された長さのDNAフラグメントの相対カバレッジを表す。ここでは転写開始部位(TSS)が基準点で、TSS周辺1 kbの範囲が含まれている。 赤色はカバレッジが高いことを示し、青色はカバレッジがゼロであることを示す。

(2)ヒートマップに示されているすべての長さのDNAフラグメントを積み重ねることによって生成される1次元の占有率(上部パネル)。

(3)シーケンスリードのサンプル全体からの各DNAフラグメントサイズに対応するパーセンテージを示すフラグメント長ヒストグラム(右パネル)。 

 

 


 複数描画して並べるなら"squeezePlot=on"フラグを立てて1パネル出力する。 上限は統一する。

#No.1
Rscript plot2DO.R --file=yeast_50U_MNase_SRR3649301.5M_reads.bam --squeezePlot=on -g sacCer3 -r Plus1 -m 0.03 -u 100 -d 100

#No.2
Rscript plot2DO.R --file=yeast_50U_MNase_SRR3649301.5M_reads.bam --squeezePlot=on -g sacCer3 -r Plus1 -m 0.03 -u 100 -d 100
  • -u     Length of the upstream region to be plotted [default = 1000]
  • -m    Maximum value on the color scale (e.g. 0.02)
  • --squeezePlot   Simplify the plot and squeeze the heat map [default: off ]

 

f:id:kazumaxneo:20200229180944p:plain

 

引用

plot2DO: a tool to assess the quality and distribution of genomic data

Răzvan V. Chereji

bioRxiv, Posted September 15, 2017.

 

*1

環境を汚したくないなら、rockerプロジェクトのrstudioなどを使う手もあります。また記事にします。

 

関連