macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

small indelとSNV検出のワークフロー 準備編

2020 9/2 追記 インストール追記

2020 9/4 コメントいただいた部分を修正

 

 

この投稿はSNVとindel検出に必要なツールの準備編です。 実際の検出のワークフローは以下のエントリーを確認してください。


 

--準備するもの--

解析に必要なソフト

GATK

BWA

Picard

Samtools

Bedtools

SnpEff

R (解析の途中で読み込まれ画像ファイルなどを出力することなどに使われる)。10.11以降はターミナルから読み出せる。

 

brewコマンドを使うことで、ワンライナーでインストールできる。

brew tap homebrew/science #scienceをオフィシャルコマンド群にする儀式

以下はツールがない人だけ実行する。(すでにインストールされているとエラーになるのでとりあえず実行しても良い)

brew install samtools
brew install bwa
brew install picard-tools
brew install bedtools
brew install snpeff

#当時はhomebrewを使ったが、condaを使っているならcondaの仮想環境を作って入れるのが無難
conda create -n indel python=3.7 -y
conda activate indel
conda install -c bioconda -y samtools
conda install -c bioconda -y bwa
conda install -c bioconda -y picard
conda install -c bioconda -y bedtools
conda install -c bioconda -y snpeff

エラがーでる場合オフィシャルサイトからソースをダウンロードしビルドする。brewがない人はこちら

 

Rのライブラリは、データ分析に以下のものが必要。

library("ggplot2")

library(gplots)

library("reshape")

library("grid")

library("tools") #For compactPDF in R 2.13+

library(gsalib)

ない人はターミナルからRを呼び出し、

>R
install.packages("gsalib")

のようにしてインストール。終わったら

q()

でRを出る。

 

追記

brewでGATKを導入するとversion4が入る。version3とは一部コマンドが違ってきているので、ここではGATK version3を入れる。GATKのアーカイブサーバからダウンロードしする。

https://software.broadinstitute.org/gatk/download/archive

f:id:kazumaxneo:20180419100820j:plain

青い文字をクリックするとversionを選べます。

f:id:kazumaxneo:20180419100906j:plain

 

例えばGATK3.8をダウンロードする。

ダウンロードした圧縮ファイルを解凍するとフォルダができる。

f:id:kazumaxneo:20180821134155j:plain

パスの通ったディレクトリに移動する。

mv GenomeAnalysisTK-3.8-0-ge9d806836/GenomeAnalysisTK.jar /usr/local/bin/

#ここではエイリアス"gatk3"でパスを通す
echo "alias gatk3='java -jar /usr/local/bin/GenomeAnalysisTK.jar'" >> ~/.bash_profile && source ~/.bash_profile

 gatk3と打って以下のようなエラーメッセージが出るか確認する。

$ gatk3

##### ERROR ------------------------------------------------------------------------------------------

##### ERROR A USER ERROR has occurred (version 3.8-0-ge9d806836): 

##### ERROR

##### ERROR This means that one or more arguments or inputs in your command are incorrect.

##### ERROR The error message below tells you what is the problem.

##### ERROR

##### ERROR If the problem is an invalid argument, please check the online documentation guide

##### ERROR (or rerun your command with --help) to view allowable command-line arguments for this tool.

##### ERROR

##### ERROR Visit our website and forum for extensive documentation and answers to 

##### ERROR commonly asked questions https://software.broadinstitute.org/gatk

##### ERROR

##### ERROR Please do NOT post this error to the GATK forum unless you have really tried to fix it yourself.

##### ERROR

##### ERROR MESSAGE: Argument with name '--analysis_type' (-T) is missing.

##### ERROR ------------------------------------------------------------------------------------------

——

ワークしている。

 

上記の他に、SnpEffのアノテーションデータと、データと合致するリファレンス配列を準備する必要がある(リファレンスの名前だけ違うとしても、アノテーション時にリファレンスと照合する時エラーになってしまう。)。 

 

詳細はクラミドモナスのリファレンスを用意する例を参考にしてください。

以上で準備は終了。