macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

FASTA分析に使えるpythonライブラリ Goldilocks

 

 Goldilocksは基準を満たす領域のさらなる解析を行うために設計されたPythonパッケージである。パッケージをスタンドアロンスクリプトにインポートするか、コマンドラインツールを使用して使用できる。(一部略)Goldilocksはもともと、複数のサンプルにわたって明示的基準に一致する領域を返すように設計されていた。このパッケージは、以来、より柔軟性があり、GC含有量、標的モチーフの頻度、予め定義されたメトリクスおよび未同定ヌクレオチド(N)などの任意の基準に基づいて、ユーザーが関心のある領域を見つけるために使用することができる。

 

 マニュアル

Welcome to Goldilocks’s documentation! — Goldilocks 0.1.1 documentation

 ここではコマンドラインでの使い方について簡単に説明します。 

インストール

依存

  • numpy
  • matplotlib (for plotting)

To test;

  • tox
  • pytest

For coverage;

依存もこのツールも全てpipで導入できる。

pip install numpy matplotlib tox pytest nose python-coveralls 

本体 Github

GitHub - SamStudio8/goldilocks: Locating genetic regions that are "just right"

pip install goldilocks

$ Goldilocks -h

usage: Goldilocks [-h] [-t TRACKS [TRACKS ...]] [-f {bed,circos,melt,table}]

                  -l LENGTH -s STRIDE [-@ PROCESSES]

                  {gc,ref,motif,nuc} {min,max,mean,median,none} faidx

                  [faidx ...]

 

Wrapper script for Goldilocks library.

 

positional arguments:

  {gc,ref,motif,nuc}

  {min,max,mean,median,none}

  faidx

 

optional arguments:

  -h, --help            show this help message and exit

  -t TRACKS [TRACKS ...], --tracks TRACKS [TRACKS ...]

  -f {bed,circos,melt,table}, --format {bed,circos,melt,table}

  -l LENGTH, --length LENGTH

  -s STRIDE, --stride STRIDE

  -@ PROCESSES, --processes PROCESSES

 

ラン

nucコマンド

ATGCをウィンドウサイズ100000bpで5000bp重複しながらカウントする。

goldilocks nuc none --tracks A C G T N -l 100000 -s 50000 -@ 8 input.fa.fai > output 
  • --tracks  TRACKS
  • -f  bed,circos,melt,table
  • -l   LENGTH
  • -s   STRIDE 
  • -@   PROCESSES

$ head output 

chr pos_start pos_end 0_A 0_C 0_G 0_N 0_T

1 1 100000 32149.0 21157.0 17026.0 0.0 29668.0

1 50001 150000 31706.0 20438.0 18182.0 0.0 29674.0

1 100001 200000 31785.0 20762.0 19049.0 0.0 28404.0

1 150001 250000 29765.0 22047.0 21919.0 0.0 26269.0

1 200001 300000 25668.0 25192.0 23868.0 0.0 25272.0

1 250001 350000 24846.0 25724.0 24445.0 0.0 24985.0

1 300001 400000 25632.0 24856.0 24349.0 0.0 25163.0

1 350001 450000 27205.0 23387.0 21910.0 0.0 27498.0

1 400001 500000 29563.0 21851.0 20667.0 0.0 27919.0

 

gcコマンド

GC含量をウィンドウサイズ100000bpで5000bp重複しながらカウント。

goldilocks gc max -l 100000 -s 50000 -@ 8 input.fa.fai > output

 

importして使う場合はオンラインドキュメントを読んでください。

Basic Package Usage — Goldilocks 0.1.1 documentation

配列の検索から、結果を可視化するplotの使い方、ggplot2やCyrcos plotとの連携など詳しく説明されています。

 

引用

Goldilocks: a tool for identifying genomic regions that are ‘just right’

Samuel M. Nicholls, Amanda Clare, and Joshua C. Randall

Bioinformatics. 2016 Jul 1; 32(13): 2047–2049.