macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

GATKのgenotyping結果を反映したゲノム配列を出力する VCF2Genome

 

このメソッドはEAGERの機能の1つで、VCFファイルのバリアントを組み込んだFastAファイルを生成するために使用できる。 バクテリアのデータに特に有用である。この機能により、ユーザーは、ジェノタイピングの最低品質、カバレッジ、およびSNP対立遺伝子頻度を選択して、真と見なすコールを含む配列を作成できる。 より詳細な説明は論文のGenotypingの段落を参照。

 

EAGERマニュアル - VCF2Genome

Module description — EAGER 1.92 documentation

 

インストール

依存

本体 Github

#Bioconda(link)
conda install -c bioconda -y vcf2genome

vcf2genome

$ vcf2genome

VCF2Genome (v. 0.91 2017-01-13)

by Alexander Herbig (<= v0.84) and Alexander Peltzer (>v0.84)

herbig@shh.mpg.de, peltzer@shh.mpg.de

 

Option "-draft" is required

 -draft VAL                 : draft contains Ns where no call can be made. RefMod contains reference calls instead at

                              these positions.

 -draftname DRAFT_SEQ_NAME  : Name of the draft sequence.

 -h                         : Display this help information and exit. (default: false)

 -in VAL                    : input VCF file

 -minc MIN_COVERAGE_FOR_SNP : Minimum coverage / reads confirming the call.

 -minfreq MIN_SNP_FREQUENCY : Minimum fraction of reads supporting the called nucleotide.

 -minq MIN_QUAL_SCORE       : Minimum quality score. For UG: Phred scaled quality score. For HC genome quality score.

 -ref VAL                   : reference genome in FastA format

 -refMod VAL                : More precise uncertainty encoding. N: Not covered or ambiguous. R: Low coverage but looks

                              like Ref. a,c,t,g (lower case): Low coverage but looks like SNP.

 -uncertain VAL             : Special 1234 encoded FastA output.

 

    Example: java -jar VCF2Genome.jar -draft VAL -draftname DRAFT_SEQ_NAME -in VAL -minc MIN_COVERAGE_FOR_SNP -minfreq MIN_SNP_FREQUENCY -minq MIN_QUAL_SCORE -ref VAL -refMod VAL -uncertain VAL

 

 

テストラン

リファレンスFASTAと GATKなどでバリアントコールして得たVCFを指定する。また、出力のFASTA名とヘッダー名、パラメータも指定する必要がある。

git clone https://github.com/apeltzer/VCF2Genome.git
cd VCF2Genome/src/test/resources/

vcf2genome -draft output_draft.fasta -draftname "hedder_name" \
-in VCF2Genome_Test_Subset.vcf -minc 5 -minfreq 0.8 -minq 30 \
-ref draft_golden.fasta -refMod output.refMod \
-uncertain 1234_output.fasta

 

  

引用

EAGER: efficient ancient genome reconstruction

Alexander Peltzer, Günter Jäger, Alexander Herbig, Alexander Seitz, Christian Kniep, Johannes Krause, Kay Nieselt
Genome Biology volume 17, Article number: 60 (2016)

 

GitHub - apeltzer/VCF2Genome: A tool to create a draft genome file out of a GATK VCF file