macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

RNA seqのリードカウント HTSeq-count

 

HTSeqはNGSデータの各種ハンドリングができるツール。ここではその1つhtseq-countコマンドを紹介する。htseq-countはリードのアライメントデータからカウントデータを出力するために使う。htseq-countを使うと、bamから数分でカウントデータを得ることができる。2015年にBioinformaticsに論文が発表された。

 

 

公式サイト

http://htseq.readthedocs.io/en/release_0.9.1/

 

インストール

依存

NumPy、Pysam、matplotlibは全てpipで導入できる。

pip install numpy
pip install pysam
pip install matplotlib

本体もpipで導入できる。

pip install htseq

 

 

ラン

シングルエンドのカウント。

htseq-count -f bam align.bam reference.gtf > count.txt
  •  -f type of <alignment_file> data, either 'sam' or 'bam' (default: sam)

 

ペアードエンドのカウント。入力するbamはあらかじめsamtoolsでソートされている必要がある。

htseq-count -f bam -r pos align.bam reference.gtf > count.txt
  • -r  'pos' or 'name'. Sorting order of <alignment_file> (default: name). Paired-end sequencing data must be sorted either by position or by read name, and the sorting order must be specified. Ignored for single- end data.
  • -f type of <alignment_file> data, either 'sam' or 'bam' (default: sam)
  • -s whether the data is from a strand-specific assay. Specify 'yes', 'no', or 'reverse' (default: yes). 'reverse' means 'yes' with reversed strand
  • -a skip all reads with alignment quality lower than the given minimum value (default: 10)

 

 

 

 

引用

HTSeq—a Python framework to work with high-throughput sequencing data

Simon Anders,* Paul Theodor Pyl, and Wolfgang Huber

Bioinformatics. 2015 Jan 15; 31(2): 166–169.

HTSeq | SAM/BAM ファイルからリードカウントを取得するソフトウェア