macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

NGSの スモールユーティリティツール Ngs crumbs

 

Ngs crumbsはfastqデータの様々な処理ができるツール群。本体が1つあるわけではなく、たくさんのユーティリィスクリプトが集まったツールセットとなっている。論文にはなっていないが、いくつかの論文でデータ処理に利用されている。マニュアルが乏しいが、使えそうなコマンドに絞って紹介する。

 

 

公式サイト

https://bioinf.comav.upv.es/seq_crumbs/

Github

https://github.com/JoseBlanca/seq_crumbs

 

インストール

依存

sudo pip install biopython
sudo pip install toolz

 

本体

tar -xvzf seq_crumbs-0.1.tar.gz
cd seq_crumbs-0.1
sudo python setup.py install

 

 

ラン

ペアリードからインターレースのfastqを作る。

interleave_pairs R1.fq R2.fq > merged.fq
  • -z Compress the output in gzip format
  • -Z Compress the output in bgzf format
  • -B Compress the output in bzip2 format

 

インターレースからペアリードに分離する。

interleave_pairs merged.fq -o R1.fq R2.fq
  • -o Sequence output file (default STDOUT)

 

合計リード数とトータルサイズ(bp)。

count_seqs input.fq
  • -t IN_FORMAT Format of the input files (default: guess) 

 

ペアじゃないリードを除く。

pair_matcher interelace.fq -o output.fq -p orphan.fq
  • --low_memory If the binary uses all memory and does not finish, use this option (default False)
  • --limit Maximum number of reads in memory (default: 1000000)
  • -u Paired reads are unordered and not just interleaved
  • -p ORPHAN Output orphan file (required)

-uフラグをつけると順番が揃っていないペアにも対応可能(未確認)。

 

ランダムに10リードを取り出す。

sample_seqs input.fq -o random.fq
  •  -n NUM_SEQS Number of sequences to print (default: 10)

ランするたびにランダムな部位が取り出される。

 

 fastqのフォーマットを変更する(fasta、fastq、fastq-illumina)。

 convert_format input.fastq -f fasta -o output.fa
  • -f {fasta,fastq,fastq-illumina} Output file format

 

 

 duplicateリードを除いたりクオリティフィルタリングできるツールもあるが、詳細が書いてない。ここでは似たことができるBBtoolsをお勧めします。BBtoolsはアルゴリズムが明記されており、マルチスレッド対応で高速に動作します。


引用

seq_crumbs — Bioinformatics at COMAV 0.1 documentation