macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

複数bamを様々な評価指標で分析して結果を統合する picardmetrics

2020 8/24 タイトル修正

 

picardmetricsはKamil Slowikowskiさんが公開されたPicard(ピカード)Toolsのbamを分析する各コマンドを走らせ、その結果を統合してくれるシェルスクリプト。 

 

コマンド

https://slowkow.github.io/picardmetrics/

インストール

ubuntu18.04に導入した。

依存

#statsの導入
git clone https://github.com/arq5x/filo.git
cd filo/
make
#/usr/local/bin/にコピー
sudo cp bin/stats /usr/local/bin/

kentutilsのgtfToGenePredバイナリをリンクからダウンロードしてパスの通ったディレクトリに移動。gtfToGenePredは上記のKentutilsのftpサーバにアクセスし、バイナリ(linux)をダウンロード、パスの通ったディレクトリに移動する。

本体 Github

git clone https://github.com/slowkow/picardmetrics 
cd picardmetrics

# Download and install the dependencies.
make get-deps PREFIX=~/.local

# Install picardmetrics and the man page.
make install PREFIX=~/.local

 homeディレクトリ($HOME)にpicardmetrics.confがコピーされる。以後はこの$HOME/picardmetrics.confをconfigファイルとして使ってpicardmetricsの解析が行われる。ゲノムFASTAのパスは適当なので、初回はpicardmetrics.confのfastaファイルのパスを修正する。Picard-toolsのパスも違うなら修正しておく。RNA seqに使うなら、アノテーションファイルも修正する必要がある。

#configファイルを修正。emacsvim、viで開く。
vi ~/picardmetrics.conf

 もしくは、毎回 -fでpicardmetrics.confを指定してランする。

 

 

ラン

data/project1/sample/にある全bamを解析する。

for bam in data/project1/sample/?.bam
do
picardmetrics run -k -o out/rnaseq $bam
done

#out/に善データが出力される。サンプルごとに個別の分析ファイルとPDFができる。これをcollateコマンドで統合する。
#データの統合。out/にある全データを統合し、summary/に出力
picardmetrics collate out/ summary/

default-all-metrics.tsvができる。

Excelで表示。ここでは2サンプルのbamの分析結果を統合している。

f:id:kazumaxneo:20180707204934j:plain

評価項目は68もあるので、ここではその先頭カラムだけ表示(画面の右に大量にカラムがある)。

 

ggplot2でplot。

R #Rに入る

> library(ggplot2)
> dat <- read.delim("project1-all-metrics.tsv", stringsAsFactors = FALSE)
> ggplot(dat) + geom_point(aes(PF_READS, PF_ALIGNED_BASES))

 

 引用

GitHub - slowkow/picardmetrics: Run Picard on BAM files and collate 90 metrics into one file.