macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

リードやコンティグ配列のリード長ヒストグラム

 

pyfaidxとRのhistを使えばワンライナーで出力できる。

 

インストール

#python (link)
pip install pyfaidx

 

実行方法

FASTAファイルを指定する。

faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); summary(data); hist(data)'

ONTのリード

f:id:kazumaxneo:20190913000251p:plain

色#993435(link)をつける。区切りは30とする。タイトル はONTとする。

faidx --transform chromsizes input.fa | cut -f2 | Rscript -e 'data <- as.numeric (readLines ("stdin")); summary(data); hist(data,breaks=30, main = "ONT",col = "#993435")'

f:id:kazumaxneo:20190913182532p:plain

 


またはsamtoolsのfaidxコマンドを使う。

samtools faidx input.fasta
cut -f2 input.fasta.fai | Rscript -e 'data <- as.numeric (readLines ("stdin")); summary(data); hist(data)'

 

引用

Read length distribution from FASTA file

nanopore - Read length distribution from FASTA file - Bioinformatics Stack Exchange