macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

アライメントフリーでk-merデータベースから高速にバリアントを検出する FastGT

 

 

公式HP

http://bioinfo.ut.ee/FastGT/index.php?r=site/index

チュートリアル

http://bioinfo.ut.ee/FastGT/index.php?r=site/page&view=manual

k-merデータベース(ヒトゲノムのみ)

http://bioinfo.ut.ee/FastGT/index.php?r=site/page&view=kmers

 

 

公式サイト

http://bioinfo.ut.ee/FastGT/

 

インストール

依存

  • GenomeTester4

http://kazumaxneo.hatenablog.com/entry/2017/12/28/233029

本体 Github

https://github.com/bioinfo-ut/GenomeTester4

#GenomeTester4
cd src/
make clean
make 

#FastGT
make gmer_counter
make gmer_caller

 またはバイナリをダウンロードする(linux)。

wget http://bioinfo.ut.ee/FastGT/downloads/fastgt_binaries_1.0.tar.gz 
tar zxvf fastgt_binaries_1.0.tar.gz
cd fastgt_1.0/

 パスを通しておく。

 

ラン

チュートリアルに従ってバリアントの検出を行う。

 

 k-merデータベースのダウンロード。

wget http://bioinfo.ut.ee/FastGT/downloads/kmer_list_WG30238282.db

 

NA12877の独立した3つのシーケンスデータをダウンロード。 

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR194/ERR194146/ERR194146.fastq.gz 
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR194/ERR194146/ERR194146_1.fastq.gz
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR194/ERR194146/ERR194146_2.fastq.gz
gunzip ERR194146*.fastq

 

genotypesをコール。 

gmer_counter -db kmer_list_WG30238282.db ERR194146*.fastq > ERR194146.counts 
gmer_caller ERR194146.counts > ERR194146.calls

 

先頭を開く。

 head ERR194146.calls
  •  カラム1: k-merデータベースのヒットしたマーカー(chr:position:rs_number:reference_allele/alternative_allele)
  • カラム2: genotype。AAはリファレンスと一致、Bは一致しない。
  • カラム3: genotypeの尤度
  • カラム4:リファレンスと一致したk-merの頻度
  • カラム5:リファレンスと一致しなかったk-merの頻度

リファレンスと一致しないならAB(ヘテロ)かBB(ホモ)がつくので、 これをgrepで抽出する(他にNC (no call) がある )。

grep AB ERR194146.calls | head

 

A|Bだけでなく全ての遺伝子型をコールしたいなら以下のように打つ。

gmer_caller --non_canonical ERR194146.counts > ERR194146.all_calls

 

 

 

引用

FastGT: an alignment-free method for calling common SNVs directly from raw sequencing reads.

Pajuste FD, Kaplinski L, Möls M, Puurand T, Lepamets M, Remm M.

Sci Rep. 2017 May 31;7(1):2537. doi: 10.1038/s41598-017-02487-5.