2020 8/24 タイトル修正
picardmetricsはKamil Slowikowskiさんが公開されたPicard(ピカード)Toolsのbamを分析する各コマンドを走らせ、その結果を統合してくれるシェルスクリプト。
コマンド
https://slowkow.github.io/picardmetrics/
インストール
ubuntu18.04に導入した。
依存
- Picard
- samtools, which depends on htslib
- stats
- gtfToGenePred
- ggplot2(optional)
#statsの導入
git clone https://github.com/arq5x/filo.git
cd filo/
make
#/usr/local/bin/にコピー
sudo cp bin/stats /usr/local/bin/
kentutilsのgtfToGenePredバイナリをリンクからダウンロードしてパスの通ったディレクトリに移動。gtfToGenePredは上記のKentutilsのftpサーバにアクセスし、バイナリ(linux)をダウンロード、パスの通ったディレクトリに移動する。
本体 Github
git clone https://github.com/slowkow/picardmetrics
cd picardmetrics
# Download and install the dependencies.
make get-deps PREFIX=~/.local
# Install picardmetrics and the man page.
make install PREFIX=~/.local
homeディレクトリ($HOME)にpicardmetrics.confがコピーされる。以後はこの$HOME/picardmetrics.confをconfigファイルとして使ってpicardmetricsの解析が行われる。ゲノムFASTAのパスは適当なので、初回はpicardmetrics.confのfastaファイルのパスを修正する。Picard-toolsのパスも違うなら修正しておく。RNA seqに使うなら、アノテーションファイルも修正する必要がある。
#configファイルを修正。emacsかvim、viで開く。
vi ~/picardmetrics.conf
もしくは、毎回 -fでpicardmetrics.confを指定してランする。
ラン
data/project1/sample/にある全bamを解析する。
for bam in data/project1/sample/?.bam
do
picardmetrics run -k -o out/rnaseq $bam
done
#out/に善データが出力される。サンプルごとに個別の分析ファイルとPDFができる。これをcollateコマンドで統合する。
#データの統合。out/にある全データを統合し、summary/に出力
picardmetrics collate out/ summary/
default-all-metrics.tsvができる。
Excelで表示。ここでは2サンプルのbamの分析結果を統合している。
評価項目は68もあるので、ここではその先頭カラムだけ表示(画面の右に大量にカラムがある)。
ggplot2でplot。
R #Rに入る
> library(ggplot2)
> dat <- read.delim("project1-all-metrics.tsv", stringsAsFactors = FALSE)
> ggplot(dat) + geom_point(aes(PF_READS, PF_ALIGNED_BASES))
引用
GitHub - slowkow/picardmetrics: Run Picard on BAM files and collate 90 metrics into one file.