NGSのスモールユーティリティツール Ngs crumbs

2020 7/26 構成を修正

Ngs crumbsはfastqデータの様々な処理ができるツール群。本体が１つあるわけではなく、たくさんのユーティリィスクリプトが集まったツールセットとなっている。論文にはなっていないが、いくつかの論文でデータ処理に利用されている。マニュアルが乏しいが、使えそうなコマンドに絞って紹介する。

公式サイト

インストール

依存

seq_crumbs depends on Python 2.7. Biopython is a recommended dependency. The installation manual is located in the doc/install.rst document.

sudo pip install biopython
sudo pip install toolz

リリースからダウンロードして解凍する。

tar -xvzf seq_crumbs-0.1.tar.gz
cd seq_crumbs-0.1
sudo python setup.py install

ラン

ペアリードからインターレースのfastqを作る。

interleave_pairs R1.fq R2.fq > merged.fq

インターレースからペアリードに分離する。

interleave_pairs merged.fq -o R1.fq R2.fq

合計リード数とトータルサイズ（bp）。

count_seqs input.fq

ペアじゃないリードを除く。

pair_matcher interelace.fq -o output.fq -p orphan.fq

--low_memory　If the binary uses all memory and does not finish, use this option (default False)
--limit　Maximum number of reads in memory (default: 1000000)
-u　Paired reads are unordered and not just interleaved
-p　ORPHAN Output orphan file (required)

-uフラグをつけると順番が揃っていないペアにも対応可能（未確認）。

ランダムに10リードを取り出す。

sample_seqs input.fq -o random.fq

ランするたびにランダムな部位が取り出される。

fastqのフォーマットを変更する（fasta、fastq、fastq-illumina）。

 convert_format input.fastq -f fasta -o output.fa

duplicateリードを除いたりクオリティフィルタリングできるツールもあるが、詳細が書いてない。ここでは似たことができるBBtoolsをお勧めします。BBtoolsはアルゴリズムが明記されており、マルチスレッド対応で高速に動作します。

引用

macでインフォマティクス