macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バリアントコーラー 16GT

 

 16GTは、イルミナ社の全ゲノムおよび全エキソームシーケンスデータ用のバリアントコラーである。16GTは、新しい16の遺伝子型の確率モデルを使用して、一塩基多型と挿入および欠失のコールを単一のバリアントコールアルゴリズムに統合している。36コアのサーバーを使用し、他の5つのバリアントコーラーとのベンチマーク比較では、16GTは一塩基多型の検出感度が向上し、GATK HaplotypeCallerと同等の検出感度と検出精度を実現した(論文発表当時)。16GTは、https://github.com/aquaskyline/16GT で入手できる。

SNPとindelを統一的に検出するために、16の遺伝子型の確率モデルとその実装を新たに開発し、16GTと名づけた。Luoらで初めて紹介されたアイデアを基に、16GTは経験的に改良されたモデルを使用し、初めて一般に公開された実装となる。XとYを用いて、最も高い支持(X)と2番目に高い支持(Y)を持つindelを表し、従来の10遺伝子型の確率モデルに6つの新しい遺伝子型(AX、CX、GX、TX、XX、XY)を追加している。新しい6つの遺伝子型は以下の通りである。(i)ホモ接合型インデル1個(XX)、(ii)参照対立遺伝子1個+ヘテロ接合型インデル1個(AX、CX、GX、TX)、(iii)ヘテロ接合型SNP1個+ヘテロ接合型インデル1個(AX、CX、GX、TX、iiの遺伝子型は再利用)、(iv)ヘテロ接合型indel 2個(XY)。SNPとindelの判定を1つのバリアントコールアルゴリズムに統合することで、16GTは4倍高速に動作するだけでなく、GATK HaplotypeCallerと比較してSNPの判定感度が向上し、インデルの判定感度は同等であることを実証している。

 

Githubより

16GTは、16の遺伝子型の確率モデルを利用し、SNPとindelコールを一つのアルゴリズムで統合したバリアントコーラーです。16GTは簡単に使用できます。デフォルトのパラメータは、ヒトゲノムのユースケースのほとんどに適合しています。各モジュールの詳細なパラメータは、各モジュールを実行することにより確認することができます。

 

インストール

#from source
git clone https://github.com/aquaskyline/16GT
cd 16GT
make

#docker
git clone https://github.com/aquaskyline/16GT.git
cd 16GT
docker build --no-cache .
#run
docker images
docker run -itv $PWD:/data --privileged <docker-id> /bin/bash

 

 

実行方法

1、indexing

#1 soap3-dp-builder
./soap3-dp-builder <path-to-ref-gen-fasta>
#=> hg38.fasta.index~ができる。

#2 BGS-Build
./BGS-Build <path-to-ref-gen-fasta>.index

 

2、コール領域の指定

bedかgff形式で指定する。

RegionIndexBuilder genome.fa.index region.bed out.region -bed

 

3、バリアントコール

snapshotSnpcaller -i genome.fa.index -o output/prefix -e out.region

 

 

引用

16GT: a fast and sensitive variant caller using a 16-genotype probabilistic model 
Ruibang Luo, Michael C. Schatz, Steven L. Salzberg
GigaScience, Volume 6, Issue 7, July 2017