VCFのアノテーションを行う Snpdat（非モデル生物にも対応）

　一塩基多型（SNP）は、脊椎動物と無脊椎動物で見られる最も一般的なgenetic variantである[ref.1]。 SNPは、関連研究[ref.2]、遺伝子マッピング[ref.3]、および集団遺伝学[4]で好まれている分子マーカーとして定期的に利用されている。技術の改善とコストの削減により、研究者は表現型の変動に潜在的な影響を与える、まれな変異を含む数千の変異を特定している[ref.5、6]。非バイオインフォマティクスの研究者は、ますます大規模なデータセットの分析を実行する必要が出てきている。疾患感受性、農業、および進化は、SNPが複雑な形質の生物学的機能および表現型の変動に与える影響を理解することに関わる分野の1つである[ref.7-9]。ただし、このタイプの情報で多数のSNPにアノテーションを付けると、手作業で実行するのが困難で非現実的であることが分かる。

　SNPアノテーション用の多くのバイオインフォマティクスツールが既に存在する（SNPit [ref.10]、SNPnexus [ref.11]、Snap [ref.12]、SNP Function Portal [ref.13]、SNPper [ref.14]、Fans [ref.15]、FunctSNP [ref.16]、Annovar [ref.17]）。 Ensemblから入手できる真核生物種のリファレンス配列は50以上あるが（リリース65）[ref.18]（論文執筆時点）、現在のところヒト以外のSNPデータの分析を可能にするツールはごくわずかである（Snat、Fans、FunctSNP、Annovarなど）。より一般的なツールの多くは、dbSNPのSNP情報を持つ種のみを分析でき、アノテーション付けされるSNPがdbSNPにすでに存在することを必要とするものもある。いくつかのツールは、周囲の既知のSNPの情報を返すことで未知変異の問題を回避しようとする。
　他のツールでサポートされておらず、アノテーション付きのSNPの数が少ない可能性のある生物で使用できる、使いやすいSNP data analysis tool（SNPdat）を開発した。SNPdatはSNPのサンプリングが深く行われている既知生物のデータセットの分析にも同様に使用できる。
　SNPdatは、Perlで記述されたクロスプラットフォームコマンドラインツールであり、既存のSNPディスカバリーまたはアノテーションパイプラインに簡単に組み込むことができ、さらには標準デスクトップマシンでユーザーが実行することもできる。（以下略）

インストール

本体　Github

git clone https://github.com/agdoran/snpdat.git 
cd snpdat/
perl SNPdat_v1.0.5.pl -h

> perl SNPdat_v1.0.5.pl -h

$ perl SNPdat_v1.0.5.pl -h

SNPdat v1.0.5

start time:

2019年 11月 7日木曜日 00時52分36秒 JST

SNPdat v1.0.5

SNPdat is a high throughput analysis tool that can provide a comprehensive annotation of both novel and known single nucleotide polymorphisms (SNPs).

SNPdat requires that each file is specified when running the program. There are 3 mandatory file definitions.

Usage:

perl SNPdat -i Input_file -f Fasta_file -g Gene_Transfer_File

Required:

-i Input file

-g Gene transfer file (GTF)

-f FASTA formated sequence file

Optional:

-d a dbSNP ASN_FLAT file processed using SNPdat_parse_dbsnp.pl (optional)

-s a file containing a summary of the queried SNPs (optional)

NOTE:If no output file is specified, results will be printed to 'Input_file.summary'

-o output_file specified by the user (optional)

NOTE:If no output file is specified, results will be printed to 'Input_file.output'

Advanced:

-x retrieve sequence information from the next/previous feature should a codon cross that boundary.

User can specify a comma separated list of features from the GTF. This is case-sensitive.

This is only recommended for advanced users who understand what it does.

By default this is not set. See website/manual for more information.

USAGE:

-x feature1,feature2

e.g.

-x exon

-x CDS

-x exon,CDS

Info:

-h This wonderful help page

-v This version of SNPdat

For more instuctions see the SNPdat webage:

http://code.google.com/p/snpdat/

実行方法

ランにはゲノムのFASTAファイル、バリアントコールのVCFファイル（またはタブ区切りテキストファイル）、遺伝子アノテーションのGTFファイルが必要。

perl SNPdat_v1.0.5.pl -i input.vcf -f reference.fasta \
 -g gene_annotation.gtf -o output -s vcf.summary

-i Input file (Mandatory)
-g Gene transfer file (GTF) (Mandatory)
-f FASTA formated sequence file (Mandatory)
-d a dbSNP ASN_FLAT file processed using SNPdat_parse_dbsnp.pl (optional)
-s a file containing a summary of the queried SNPs (optional)

vcf.summary

f:id:kazumaxneo:20191109150011p:plain

output

f:id:kazumaxneo:20191109150512p:plain

そのほかのスクリプト

Ensemblの各リリースからゲノムのFASTAファイルとアノテーションのGTFをダウンロードするスクリプトなどが付属している。対話形式で実行できるようになっている。

perl GTF_FASTA_finder_v1.0.4.pl

まずリリースバージョンを指定する。例えばrelease-35なら左端の番号15をタイプする。

f:id:kazumaxneo:20191109003837p:plain

続いて、ゲノム配列をダウンロードする生物を選ぶ。このリリースバージョンではヒトゲノムは23。

f:id:kazumaxneo:20191109003854p:plain

（昔のリリースと比べると、最新リリースは利用できるゲノムの数がかなり増えている）。

リファレンスのFASTAがダウンロードされる。続いてアノテーションのGTFをダウンロードする。再び生物を選ぶ。ここでは酵母を選んだ。

f:id:kazumaxneo:20191109004235p:plain

完了するとメッセージが出て対話モードは終了。

f:id:kazumaxneo:20191109004523p:plain

得られたFASTAとGTFを使う。

もう1つはdbSNPの各バージョンをダウンロードするスクリプトになる。

perl GTF_FASTA_finder_v1.0.4.pl

対話モードになるので、バージョンを選ぶ。

f:id:kazumaxneo:20191109005744p:plain

手順は同様なので省略。

引用
Snpdat: easy and rapid annotation of results from de novo snp discovery projects for model and non-model organisms

Doran AG1, Creevey CJ

BMC Bioinformatics. 2013 Feb 8;14:45

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

VCFのアノテーションを行う Snpdat（非モデル生物にも対応）