macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

SnpEffを使ってindel検出結果のアノテーションを行う

 多くのindel検出ツールは変異のポジションしか出力しないため、その変異がどのようなアミノ酸変化を引き起こすか、サイレントなのかは別途調べる必要がある。ただし手動でやるのはしんどいし、間違いの元になる。snpEffはこうした作業をサポートするプログラムである。バリアント検出結果のvcfを入力として、データベースを元にアミノ酸変化などをコールしてくれる。SnpEffは2500以上のモデル生物のアノテーションデータを保持している。たいていの生物ですぐにアノテーションをできるのも広く使われている理由の1つと思われる。

 

ダウンロード

SnpEff

公式マニュアル

http://snpeff.sourceforge.net/SnpEff_manual.html#databases

 

ダウンロードしたら解凍し、snpEff_latest_coresnpEff/内に入る。まずは、アノテーションをつけたい生物のデータベースが存在するかコマンドを打って確認する。

java -jar snpEff.jar databases | grep -i 7002|cut -f 1 # 下の*1を参照

ここではSynechococcus sp. PCC7002というシアノバクテリアを検索している(まずは7002だけで検索)。上記のコマンドを打つと

Campylobacter_jejuni_subsp_jejuni_icdccj07002 
Neisseria_meningitidis_70021
Streptococcus_pneumoniae_gca_001170025
Synechococcus_sp_pcc_7002
Treponema_medium_atcc_700293

 がヒットした。4つ目が今回の生物に該当する。

 

生物名が不明な場合、上のコマンドのパイプでつないだcutを"cut -f 1,2" に変えて実行する。データベースで説明されている"GRCh38.76"を検索すると

 >java -jar snpEff.jar databases | grep -i GRCh38|cut -f 1,2
GRCh38.86 Homo_sapiens
GRCh38.p7.RefSeq Human genome GRCh38 using RefSeq transcripts

人のデータとわかる。rnaも登録されていてアノテーションできるようだ。

 

データベース名がわかったら、それをダウンロードする。

java -jar snpEff.jar download -v Synechococcus_sp_pcc_7002 -c /Users/user/local/snippy/etc/snpeff.config

-v: 進捗状況の表示。

-c: snpeff.configのパスを指定 (-cで指定していないと途中で止まってしまう)

snpeff.configの場所は各自検索してください。上記はbrewでインストールした場合です。

 

これでアノテーションする準備ができた。ランは以下のコマンドで行う。

java -Xmx4g -jar snpEff.jar Synechococcus_sp_pcc_7002 indel.vcf > annotation.vcf

-Xmx4g: javaのコマンド。メモリを4Gまでに制限。

indel.vcf: GATKなどの変異検出ソフトで出力されたファイル。

databasesコマンドで表示された名前をデータベース名として入力する。

  

入力のindelファイルはVariant Call Format(VCF)に対応している。GATK以外に多くのindel検出ソフトの出力はVCFフォーマットの規則に則っているので、そのままsnpEffで変異部位のアノテーションはできると思われる。VCFの詳細はsnpFff (http://snpeff.sourceforge.net/SnpEff_manual.html)

のVCF filesの項目を参照する。

 

 

 

データベースとリファレンスゲノムをセットで拾う例も紹介する。

例えばクラミドモナスなら

>snpEff databases | grep -i Chlamydomonas|cut -f 1,2
v3.1.29                                                   Chlamydomonas_reinhardtii 

ゲノムのversion3.1.29をアノテーションに使っていることがわかった。植物ゲノムが登録されているRSATデータベースのgenomeフォルダ内のここから.faファイルをダウンロードできる。

並行してsnpEffのデータベースもダウンロードする。

java -jar snpEff.jar download -v v3.1.29 -c /Users/user/local/snippy/etc/snpeff.config

 

 

 

 

*1 brewでインストールした人は最初を端折って"snpEff"だけで実行する。