ハイスループットのクロマチンコンフォメーション(Hi-C)データをシミュレーションできることは、Hi-Cデータ解析手法のベンチマークに不可欠である。この論文では、FreeHi-Cと名付けられたノンパラメトリックな手法を用いて、相互作用するゲノム断片から得られるHi-Cデータのシミュレーションを行った。FreeHi-Cのデータは、生物学的Hi-Cデータに高い忠実性を示す。FreeHi-Cは、偽発見率を抑制した上でデータを増大させることで、differential chromatin interaction detectionの精度と能力を向上させる。
インストール
依存
-
BWA: BWA installation (>=0.5.9)
-
samtools: samtools installation (>=1.3)
-
bedtools: bedtools installation (<=2.25.0, for now please don't use the latest bedtools version)
- python3 with corresponding modules required: numpy (>= 1.13.1), scipy (>= 0.19.1), pysam (>= 0.12.0), bx-python (>= 0.5.0), Cython (>= 0.27.3). (これらはpython-requirements.txtから導入できる)
git clone https://github.com/yezhengSTAT/FreeHiC
cd FreeHiC/
#bwa, samtools,bedtoolsの導入, gccも最後の行に書いてあるがいらないのでここでは削る。
head -n -1 FreeHiC_conda_environment.yml > FreeHiC_conda_environment_rev.yml
mamba env create -f FreeHiC_conda_environment_rev.yml
conda activate FreeHiC
#pythonのモジュールの導入
pip install -r python-requirements.txt
#docker image(使い方はレポジトリ参照)
docker pull yezheng/freehic_docker
> bash run_FreeHiC.sh
# bash run_FreeHiC.sh
run_FreeHiC.sh: line 3: source: filename argument required
source: usage: source filename [arguments]
projDir=
fastqFile=
ref=
refrag=
outDir=
simuName=
summaryFile=
bwa=
samtools=
bedtools=
train=
simulate=
postProcess=
coreN=
mismatchN=
gapN=
mismatchP=
gapP=
chimericP=
simuN=
readLen=
resolution=
lowerBound=
refragU=
ligateSite=
Pre-checking the input parameters......
Please provide the path to FreeHi-C package, namely the path to the FreeHi-C repository after downloanding or cloning.
実行方法
ランにはパラメータのconfigファイルを使用する。
cat FreeHiC/FreeHiC_parameters
# cat FreeHiC_parameters
projDir="/path/to/FreeHiC/repository"
fastqFile="ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM1215nnn/GSM1215593/suppl/GSM1215593_trimmedAndFiltered-TROPHOZOITES-XL-AGGG-L2" #"${projDir}/demoData/GSM1215593_trimmedAndFiltered-TROPHOZOITES-XL-AGGG-L2"
ref="${projDir}/data/PlasmoDB-9.0_Pfalciparum3D7_Genome.fasta"
refrag="${projDir}/data/MboI_resfrag_plasmodium.bed"
simuName="demoSimulation"
outDir="${projDir}/results"
summaryFile="${projDir}/summary/${simuName}_FreeHiC.summary"
bwa="/path/to/bwa"
samtools="/path/to/samtools"
bedtools="/path/to/bedtools"
train=1
simulate=1
postProcess=1
coreN=4
mismatchN=3
gapN=1
mismatchP=""
gapP=""
chimericP=""
simuN=2400000
readLen=40
resolution=10000
lowerBound=$*1
refragU=500
ligateSite="GATCGATC"
projDirとツールのパスは最低限修正する必要がある。
Dockerを使ってのラン。
シーケンスデータ(fastqファイル)、リファレンスゲノム(fastaファイル)、制限酵素断片ファイル(bedファイル)など、すべての入力データが同じデータフォルダ内に保存されている場合。
docker run -v "/path/to/parameter/file/FreeHiC_parameters_docker:/FreeHiC/FreeHiC_parameters" -v "/path/to/input/data/folder:/FreeHiC/data" -v "/path/to/results/folder:/FreeHiC/results" freehic_docker bash run_FreeHiC.sh FreeHiC_parameters
1つ目の-v "/path/to/parameter/file/FreeHiC_parameters_docker:/FreeHiC/FreeHiC_parameters "は、ユーザー定義のパラメータファイルFreeHiC_parameters_dockerをDockerコンテナに渡すことを意味する。2つ目の-v "/path/to/input/data/folder:/FreeHiC/data" は、FreeHi-CのDockerコンテナに、データフォルダが"/path/to/input/data/folder "であることを伝える。-v "/path/to/results/folder:/FreeHiC/results" は、FreeHi-c Dockerコンテナに、結果を「/path/to/results/folder」に保存するように指示する。
引用
FreeHi-C simulates high-fidelity Hi-C data for benchmarking and data augmentation
Ye Zheng & Sündüz Keleş
Nature Methods volume 17, pages 37–40 (2020)Cite this article
*1:resolution*2