2020 12/9 インストール追記
染色体の大きさは顕微鏡で測定できるが、ゲノムの大きさは正確には測定できない。生化学的手法やk-mer分布に基づくアプローチでは、推定しかできない。本研究では、高い連続性のセンブリとショートリードマッピングに基づいてゲノムサイズを予測する代替的なアプローチを提示し、シロイヌナズナとベタバルガリスで最適化した。また、Brachypodium distachyon、Solanum lycopersicum、Vitis vinifera、Zea maysについても解析を行い、このアプローチの広範な適用性を実証した。マッピングベースのゲノムサイズ推定(MGSE)と追加スクリプトは、github: https://github.com/bpucker/MGSE から入手可能である。
インストール
condaでpython2.7の仮想環境を作ってテストした。
依存
- python 2.7.x is required for executing MGSE
- samtools
- bedtools
conda create -n MGSE python=2.7 -y
conda activate MGSE
conda install -c bioconda -y bedtools samtools
git clone https://github.com/bpucker/MGSE.git
cd MGSE/
python MGSE.py
> python MGSE.py -h
$ python MGSE.py
python MGSE.py
--cov <FULL_PATH_TO_COVERAGE_FILE_OR_FOLDER>| --bam <FULL_PATH_TO_BAM_FILE>
--out <FULL_PATH_TO_OUTPUT_DIRECTORY>
--ref | --gff <FULL_PATH_TO_REF_GENE_FILE_OR_GFF3_FILE> | --busco <FULL_PATH_TO 'full_table_busco_run.tsv'> | --all <ALL_POS_USED_FOR_CALCULATION>
optional:
--black <FULL_PATH_TO_FILE_WITH_CONTIG_NAMES_FOR_EXCLUSION>
--gzip <ACITVATES_SEARCH_FOR_COMPRESSED_FILES>
--bam_is_sorted PREVENTS_SORTING_OF_BAM_FILE
--samtools <FULL_PATH_TO_SAMTOOLS>
--bedtools <FULL_PATH_TO_BEDTOOLS>
--name <NAME_OF_CURRENCT_ANALYSIS>
--m <SAMTOOLS_MEMORY>[5000000000]
--threads <SAMTOOLS_THREADS>[4]
--plot <ACTIVATE_OR_DEACTIVATE_PLOTTING TRUE|FALSE>[FALSE]
--blackoff <ACTIVATE_OR_DEACTIVATE_PLOTTING TRUE|FALSE>[FALSE]
WARNING: if --busco is used, the BUSCO GFF3 files need to be in the default folder relative to the provided TSV file
WARNING: use of absolute paths is required
WARNING: high coverage contigs are black listed by default. Use --blackoff to disable black listing.
bug reports and feature requests: bpucker@cebitec.uni-bielefeld.de
> python construct_cov_file.py
$ python construct_cov_file.py
--in <BAM_FILE>
--out <OUTPUT_FILE>
--bam_is_sorted PREVENTS_EXTRA_SORTING_OF_BAM_FILE
optional:
--m <SAMTOOLS_MEMORY>[5000000000]
--threads <SAMTOOLS_THREADS>[4]
--samtools <FULL_PATH_TO_SAMTOOLS>
--bedtools <FULL_PATH_TO_BEDTOOLS>
feature requests and bug reports: bpucker@cebitec.uni-bielefeld.de
実行方法
1、coverageファイルの作成(bedtoolsが必要)
python construct_cov_file.py --in map.bam --out output
2、MGSEのラン
#ref (ポジション指定)
python MGSE.py --cov out --out outdir --ref ref_text
#all
python MGSE.py --cov out --out outdir --all
#gff3
python MGSE.py --cov out --out outdir --gff gene.gff3
#busco
python MGSE.py --cov out --out outdir --busco busco_dir/full_table_busco_run.tsv
引用
Mapping-based genome size estimation
Boas Pucker
bioRxiv, Posted April 13, 2019