macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

高忠実度のHi-Cデータをシミュレートする FreeHi-C

 

 ハイスループットクロマチンコンフォメーション(Hi-C)データをシミュレーションできることは、Hi-Cデータ解析手法のベンチマークに不可欠である。この論文では、FreeHi-Cと名付けられたノンパラメトリックな手法を用いて、相互作用するゲノム断片から得られるHi-Cデータのシミュレーションを行った。FreeHi-Cのデータは、生物学的Hi-Cデータに高い忠実性を示す。FreeHi-Cは、偽発見率を抑制した上でデータを増大させることで、differential chromatin interaction detectionの精度と能力を向上させる。

 

インストール

依存

  • BWA: BWA installation (>=0.5.9)

  • samtools: samtools installation (>=1.3)

  • bedtools: bedtools installation (<=2.25.0, for now please don't use the latest bedtools version)

  • GNU C++ compiler (>= 4.8.1)

  • python3 with corresponding modules required: numpy (>= 1.13.1), scipy (>= 0.19.1), pysam (>= 0.12.0), bx-python (>= 0.5.0), Cython (>= 0.27.3). (これらはpython-requirements.txtから導入できる)

Github

git clone https://github.com/yezhengSTAT/FreeHiC
cd FreeHiC/

#bwa, samtools,bedtoolsの導入, gccも最後の行に書いてあるがいらないのでここでは削る。
head -n -1 FreeHiC_conda_environment.yml > FreeHiC_conda_environment_rev.yml
mamba env create -f FreeHiC_conda_environment_rev.yml
conda activate FreeHiC

#pythonのモジュールの導入
pip install -r python-requirements.txt

#docker image(使い方はレポジトリ参照)
docker pull yezheng/freehic_docker

bash run_FreeHiC.sh

# bash run_FreeHiC.sh

run_FreeHiC.sh: line 3: source: filename argument required

source: usage: source filename [arguments]

projDir=

fastqFile=

ref=

refrag=

outDir=

simuName=

summaryFile=

bwa=

samtools=

bedtools=

train=

simulate=

postProcess=

coreN=

mismatchN=

gapN=

mismatchP=

gapP=

chimericP=

simuN=

readLen=

resolution=

lowerBound=

refragU=

ligateSite=

Pre-checking the input parameters......

Please provide the path to FreeHi-C package, namely the path to the FreeHi-C repository after downloanding or cloning.

 

 

実行方法

ランにはパラメータのconfigファイルを使用する。

cat FreeHiC/FreeHiC_parameters

# cat FreeHiC_parameters

projDir="/path/to/FreeHiC/repository"

fastqFile="ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM1215nnn/GSM1215593/suppl/GSM1215593_trimmedAndFiltered-TROPHOZOITES-XL-AGGG-L2" #"${projDir}/demoData/GSM1215593_trimmedAndFiltered-TROPHOZOITES-XL-AGGG-L2"

ref="${projDir}/data/PlasmoDB-9.0_Pfalciparum3D7_Genome.fasta"

refrag="${projDir}/data/MboI_resfrag_plasmodium.bed"

simuName="demoSimulation"

outDir="${projDir}/results"

summaryFile="${projDir}/summary/${simuName}_FreeHiC.summary"

 

bwa="/path/to/bwa"

samtools="/path/to/samtools"

bedtools="/path/to/bedtools"

 

train=1

simulate=1

postProcess=1

coreN=4

mismatchN=3

gapN=1

mismatchP=""

gapP=""

chimericP=""

simuN=2400000

readLen=40

resolution=10000

lowerBound=$*1

refragU=500

ligateSite="GATCGATC"

projDirとツールのパスは最低限修正する必要がある。

 

Dockerを使ってのラン。

シーケンスデータ(fastqファイル)、リファレンスゲノム(fastaファイル)、制限酵素断片ファイル(bedファイル)など、すべての入力データが同じデータフォルダ内に保存されている場合。

docker run -v "/path/to/parameter/file/FreeHiC_parameters_docker:/FreeHiC/FreeHiC_parameters" -v "/path/to/input/data/folder:/FreeHiC/data" -v "/path/to/results/folder:/FreeHiC/results" freehic_docker bash run_FreeHiC.sh FreeHiC_parameters

1つ目の-v "/path/to/parameter/file/FreeHiC_parameters_docker:/FreeHiC/FreeHiC_parameters "は、ユーザー定義のパラメータファイルFreeHiC_parameters_dockerをDockerコンテナに渡すことを意味する。2つ目の-v "/path/to/input/data/folder:/FreeHiC/data" は、FreeHi-CのDockerコンテナに、データフォルダが"/path/to/input/data/folder "であることを伝える。-v "/path/to/results/folder:/FreeHiC/results" は、FreeHi-c Dockerコンテナに、結果を「/path/to/results/folder」に保存するように指示する。

 

引用

FreeHi-C simulates high-fidelity Hi-C data for benchmarking and data augmentation

Ye Zheng & Sündüz Keleş
Nature Methods volume 17, pages 37–40 (2020)Cite this article

*1:resolution*2