macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

MGSE

2020 12/9 インストール追記

 

染色体の大きさは顕微鏡で測定できるが、ゲノムの大きさは正確には測定できない。生化学的手法やk-mer分布に基づくアプローチでは、推定しかできない。本研究では、高い連続性のセンブリとショートリードマッピングに基づいてゲノムサイズを予測する代替的なアプローチを提示し、シロイヌナズナとベタバルガリスで最適化した。また、Brachypodium distachyonSolanum lycopersicumVitis viniferaZea maysについても解析を行い、このアプローチの広範な適用性を実証した。マッピングベースのゲノムサイズ推定(MGSE)と追加スクリプトは、github: https://github.com/bpucker/MGSE から入手可能である。

 

インストール

condaでpython2.7の仮想環境を作ってテストした。

依存

  • python 2.7.x is required for executing MGSE
  • samtools
  • bedtools

Github

conda create -n MGSE python=2.7 -y
conda activate MGSE
conda install -c bioconda -y bedtools samtools
git clone https://github.com/bpucker/MGSE.git
cd MGSE/
python MGSE.py

python MGSE.py -h

$ python MGSE.py

 

python MGSE.py

--cov <FULL_PATH_TO_COVERAGE_FILE_OR_FOLDER>| --bam <FULL_PATH_TO_BAM_FILE>

--out <FULL_PATH_TO_OUTPUT_DIRECTORY>

--ref | --gff <FULL_PATH_TO_REF_GENE_FILE_OR_GFF3_FILE> | --busco <FULL_PATH_TO 'full_table_busco_run.tsv'> | --all <ALL_POS_USED_FOR_CALCULATION>

 

optional:

--black <FULL_PATH_TO_FILE_WITH_CONTIG_NAMES_FOR_EXCLUSION>

--gzip <ACITVATES_SEARCH_FOR_COMPRESSED_FILES>

--bam_is_sorted PREVENTS_SORTING_OF_BAM_FILE

--samtools <FULL_PATH_TO_SAMTOOLS>

--bedtools <FULL_PATH_TO_BEDTOOLS>

--name <NAME_OF_CURRENCT_ANALYSIS>

--m <SAMTOOLS_MEMORY>[5000000000]

--threads <SAMTOOLS_THREADS>[4]

--plot <ACTIVATE_OR_DEACTIVATE_PLOTTING TRUE|FALSE>[FALSE]

--blackoff <ACTIVATE_OR_DEACTIVATE_PLOTTING TRUE|FALSE>[FALSE]

 

WARNING: if --busco is used, the BUSCO GFF3 files need to be in the default folder relative to the provided TSV file

WARNING: use of absolute paths is required

WARNING: high coverage contigs are black listed by default. Use --blackoff to disable black listing.

 

bug reports and feature requests: bpucker@cebitec.uni-bielefeld.de

 

python construct_cov_file.py

$ python construct_cov_file.py 

 

python construct_cov_file.py

 

--in <BAM_FILE>

--out <OUTPUT_FILE>

 

--bam_is_sorted PREVENTS_EXTRA_SORTING_OF_BAM_FILE

 

optional:

--m <SAMTOOLS_MEMORY>[5000000000]

--threads <SAMTOOLS_THREADS>[4]

--samtools <FULL_PATH_TO_SAMTOOLS>

--bedtools <FULL_PATH_TO_BEDTOOLS>

 

feature requests and bug reports: bpucker@cebitec.uni-bielefeld.de

 

 

 

実行方法

1、coverageファイルの作成(bedtoolsが必要)

python construct_cov_file.py --in map.bam --out output

 

2、MGSEのラン

#ref (ポジション指定)
python MGSE.py --cov out --out outdir --ref ref_text

#all
python MGSE.py --cov out --out outdir --all

#gff3
python MGSE.py --cov out --out outdir --gff gene.gff3

#busco
python MGSE.py --cov out --out outdir --busco busco_dir/full_table_busco_run.tsv

引用

Mapping-based genome size estimation

Boas Pucker

bioRxiv, Posted April 13, 2019