2020 7/26 構成を修正
Ngs crumbsはfastqデータの様々な処理ができるツール群。本体が1つあるわけではなく、たくさんのユーティリィスクリプトが集まったツールセットとなっている。論文にはなっていないが、いくつかの論文でデータ処理に利用されている。マニュアルが乏しいが、使えそうなコマンドに絞って紹介する。
公式サイト
https://bioinf.comav.upv.es/seq_crumbs/
インストール
依存
- seq_crumbs depends on Python 2.7. Biopython is a recommended dependency. The installation manual is located in the doc/install.rst document.
sudo pip install biopython
sudo pip install toolz
リリースからダウンロードして解凍する。
tar -xvzf seq_crumbs-0.1.tar.gz
cd seq_crumbs-0.1
sudo python setup.py install
ラン
ペアリードからインターレースのfastqを作る。
interleave_pairs R1.fq R2.fq > merged.fq
- -z Compress the output in gzip format
- -Z Compress the output in bgzf format
- -B Compress the output in bzip2 format
インターレースからペアリードに分離する。
interleave_pairs merged.fq -o R1.fq R2.fq
- -o Sequence output file (default STDOUT)
合計リード数とトータルサイズ(bp)。
count_seqs input.fq
- -t IN_FORMAT Format of the input files (default: guess)
ペアじゃないリードを除く。
pair_matcher interelace.fq -o output.fq -p orphan.fq
- --low_memory If the binary uses all memory and does not finish, use this option (default False)
- --limit Maximum number of reads in memory (default: 1000000)
- -u Paired reads are unordered and not just interleaved
- -p ORPHAN Output orphan file (required)
-uフラグをつけると順番が揃っていないペアにも対応可能(未確認)。
ランダムに10リードを取り出す。
sample_seqs input.fq -o random.fq
- -n NUM_SEQS Number of sequences to print (default: 10)
ランするたびにランダムな部位が取り出される。
fastqのフォーマットを変更する(fasta、fastq、fastq-illumina)。
convert_format input.fastq -f fasta -o output.fa
- -f {fasta,fastq,fastq-illumina} Output file format
duplicateリードを除いたりクオリティフィルタリングできるツールもあるが、詳細が書いてない。ここでは似たことができるBBtoolsをお勧めします。BBtoolsはアルゴリズムが明記されており、マルチスレッド対応で高速に動作します。
引用
seq_crumbs — Bioinformatics at COMAV 0.1 documentation