Goldilocksは基準を満たす領域のさらなる解析を行うために設計されたPythonパッケージである。パッケージをスタンドアロンスクリプトにインポートするか、コマンドラインツールを使用して使用できる。(一部略)Goldilocksはもともと、複数のサンプルにわたって明示的基準に一致する領域を返すように設計されていた。このパッケージは、以来、より柔軟性があり、GC含有量、標的モチーフの頻度、予め定義されたメトリクスおよび未同定ヌクレオチド(N)などの任意の基準に基づいて、ユーザーが関心のある領域を見つけるために使用することができる。
マニュアル
Welcome to Goldilocks’s documentation! — Goldilocks 0.1.1 documentation
ここではコマンドラインでの使い方について簡単に説明します。
インストール
依存
- numpy
- matplotlib (for plotting)
To test;
- tox
- pytest
For coverage;
- nose
- python-coveralls
依存もこのツールも全てpipで導入できる。
pip install numpy matplotlib tox pytest nose python-coveralls
GitHub - SamStudio8/goldilocks: Locating genetic regions that are "just right"
pip install goldilocks
$ Goldilocks -h
usage: Goldilocks [-h] [-t TRACKS [TRACKS ...]] [-f {bed,circos,melt,table}]
-l LENGTH -s STRIDE [-@ PROCESSES]
{gc,ref,motif,nuc} {min,max,mean,median,none} faidx
[faidx ...]
Wrapper script for Goldilocks library.
positional arguments:
{gc,ref,motif,nuc}
{min,max,mean,median,none}
faidx
optional arguments:
-h, --help show this help message and exit
-t TRACKS [TRACKS ...], --tracks TRACKS [TRACKS ...]
-f {bed,circos,melt,table}, --format {bed,circos,melt,table}
-l LENGTH, --length LENGTH
-s STRIDE, --stride STRIDE
-@ PROCESSES, --processes PROCESSES
ラン
nucコマンド
ATGCをウィンドウサイズ100000bpで5000bp重複しながらカウントする。
goldilocks nuc none --tracks A C G T N -l 100000 -s 50000 -@ 8 input.fa.fai > output
- --tracks TRACKS
- -f bed,circos,melt,table
- -l LENGTH
- -s STRIDE
- -@ PROCESSES
$ head output
chr pos_start pos_end 0_A 0_C 0_G 0_N 0_T
1 1 100000 32149.0 21157.0 17026.0 0.0 29668.0
1 50001 150000 31706.0 20438.0 18182.0 0.0 29674.0
1 100001 200000 31785.0 20762.0 19049.0 0.0 28404.0
1 150001 250000 29765.0 22047.0 21919.0 0.0 26269.0
1 200001 300000 25668.0 25192.0 23868.0 0.0 25272.0
1 250001 350000 24846.0 25724.0 24445.0 0.0 24985.0
1 300001 400000 25632.0 24856.0 24349.0 0.0 25163.0
1 350001 450000 27205.0 23387.0 21910.0 0.0 27498.0
1 400001 500000 29563.0 21851.0 20667.0 0.0 27919.0
gcコマンド
GC含量をウィンドウサイズ100000bpで5000bp重複しながらカウント。
goldilocks gc max -l 100000 -s 50000 -@ 8 input.fa.fai > output
importして使う場合はオンラインドキュメントを読んでください。
Basic Package Usage — Goldilocks 0.1.1 documentation
配列の検索から、結果を可視化するplotの使い方、ggplot2やCyrcos plotとの連携など詳しく説明されています。
引用
Goldilocks: a tool for identifying genomic regions that are ‘just right’
Samuel M. Nicholls, Amanda Clare, and Joshua C. Randall
Bioinformatics. 2016 Jul 1; 32(13): 2047–2049.