MethylDackel(以前の名前はPileOMethで、これはMETHylationメトリクスを抽出するためにPILEupを使用していたための仮の名前だった)は、何らかの形でBS-seqのアラインメントを含む、座標順にソートされ、インデックスが付けられたBAMまたはCRAMファイルを処理し、そこから塩基ごとのメチル化メトリクスを抽出する。
MethylDackelは、すべてのシトシンを3つの配列コンテクストのいずれかにグループ化する。CpG、CHG、およびCHHである。ここで、HはG以外のヌクレオチドを表すIUPACの曖昧さを表すコードであり、参照配列中にNが見つかった場合、そのコンテキストは適切にCHGまたはCHHに割り当てられる(例えば、CNGはCHGコンテキストに、CNCはCHHコンテキストに分類される)。シトシンが染色体/コンティグの末端に十分近く、そのコンテクストが推測できない場合は、CHHに分類される(例:染色体の最後の塩基としてのシトシンはCHHコンテクストにあるとみなされる)。
インストール
依存
- A C compiler, such as gcc, htslib (at least versions 1.11, earlier versions are not compatible) and libBigWig are required. For libBigWig, the static library is used.
#conda (link)
mamba install -c bioconda methyldackel -y
> MethylDackel -h
$ MethylDackel -h
MethylDackel: A tool for processing bisulfite sequencing alignments.
Version: 0.6.0 (using HTSlib version 1.12)
Usage: MethylDackel <command> [options]
Commands:
mbias Determine the position-dependent methylation bias in a dataset,
producing diagnostic SVG images.
extract Extract methylation metrics from an alignment file in BAM/CRAM
format.
mergeContext Combine single Cytosine metrics from 'MethylDackel extract' into
per-CpG/CHG metrics.
perRead Generate a per-read methylation summary.
実行方法
MethylDackelは、参照ゲノムを含むインデックス付きのfastaファイルも使う。
MethylDackel extract reference_genome.fa alignments.bam
出力のalignments_CpG.bedGraphは標準的なbedGraphファイルで、4列目はある位置にメチル化されたCが存在することを示すリード/リードペアの数、5列目はメチル化されていないCが存在することを示す数である。
Githubより
- MethylDackel は、デフォルトでは CpG コンテキストの Cytosine に対してのみ測定値を算出するが、CHG および CHH コンテキストの Cytosine に対しても測定値を計算することができる(--CHH および --CHG オプションを参照)。
- CpGに含まれるCytosineを無視したい場合は、--noCpGを指定するだけ。メトリックの種類ごとに、異なるファイルに出力される。
- per-CpGおよび/またはper-CHG(per-Cytosineではなく)の測定値については、以下の「Per-CpG/CHG測定値」を参照してください。
- MAPQとPhredスコアに基づいてリードと塩基をそれぞれフィルタリングすることができる。デフォルトの最小値は MAPQ >= 10 および Phred >= 5だが、-q および -p オプションで変更できる。--OT、--OB、--CTOT、--CTOBオプションを用いて、メチル化バイアス(後述)を考慮することもできる。
- Bismap mappabilityデータのbigWig(-Mオプションを使用)が与えられた場合、メチル化コールをサポートするには低すぎるmappabilityスコアを持つリードを除外することができる。デフォルトの設定では、mappability ≥ 0.01の塩基が15個以下の場合、リードは拒否されるが、-tおよび-bオプションで設定できる。
- このmappabilityデータは、BBMファイルから読み込むこともできる。BBMファイル("Binary BisMap "の略)は、MethylDackelが使用しているbigWigのデータを独自に圧縮したもので、bigWigよりも高速に読み込むことができ、また、使用するディスク容量も少なくて済む。MethylDackel extractの実行時に-Oまたは-Nオプションを指定してこれらのファイルを作成し、-Bオプション(-Mの代わり)を使って読み込める。
引用
GitHub - dpryan79/MethylDackel: A (mostly) universal methylation extractor for BS-seq experiments.