このメソッドはEAGERの機能の1つで、VCFファイルのバリアントを組み込んだFastAファイルを生成するために使用できる。 バクテリアのデータに特に有用である。この機能により、ユーザーは、ジェノタイピングの最低品質、カバレッジ、およびSNP対立遺伝子頻度を選択して、真と見なすコールを含む配列を作成できる。 より詳細な説明は論文のGenotypingの段落を参照。
EAGERマニュアル - VCF2Genome
Module description — EAGER 1.92 documentation
インストール
依存
本体 Github
#Bioconda(link)
conda install -c bioconda -y vcf2genome
> vcf2genome
$ vcf2genome
VCF2Genome (v. 0.91 2017-01-13)
by Alexander Herbig (<= v0.84) and Alexander Peltzer (>v0.84)
herbig@shh.mpg.de, peltzer@shh.mpg.de
Option "-draft" is required
-draft VAL : draft contains Ns where no call can be made. RefMod contains reference calls instead at
these positions.
-draftname DRAFT_SEQ_NAME : Name of the draft sequence.
-h : Display this help information and exit. (default: false)
-in VAL : input VCF file
-minc MIN_COVERAGE_FOR_SNP : Minimum coverage / reads confirming the call.
-minfreq MIN_SNP_FREQUENCY : Minimum fraction of reads supporting the called nucleotide.
-minq MIN_QUAL_SCORE : Minimum quality score. For UG: Phred scaled quality score. For HC genome quality score.
-ref VAL : reference genome in FastA format
-refMod VAL : More precise uncertainty encoding. N: Not covered or ambiguous. R: Low coverage but looks
like Ref. a,c,t,g (lower case): Low coverage but looks like SNP.
-uncertain VAL : Special 1234 encoded FastA output.
Example: java -jar VCF2Genome.jar -draft VAL -draftname DRAFT_SEQ_NAME -in VAL -minc MIN_COVERAGE_FOR_SNP -minfreq MIN_SNP_FREQUENCY -minq MIN_QUAL_SCORE -ref VAL -refMod VAL -uncertain VAL
テストラン
リファレンスFASTAと GATKなどでバリアントコールして得たVCFを指定する。また、出力のFASTA名とヘッダー名、パラメータも指定する必要がある。
git clone https://github.com/apeltzer/VCF2Genome.git
cd VCF2Genome/src/test/resources/
vcf2genome -draft output_draft.fasta -draftname "hedder_name" \
-in VCF2Genome_Test_Subset.vcf -minc 5 -minfreq 0.8 -minq 30 \
-ref draft_golden.fasta -refMod output.refMod \
-uncertain 1234_output.fasta
引用
EAGER: efficient ancient genome reconstruction
Alexander Peltzer, Günter Jäger, Alexander Herbig, Alexander Seitz, Christian Kniep, Johannes Krause, Kay Nieselt
Genome Biology volume 17, Article number: 60 (2016)
GitHub - apeltzer/VCF2Genome: A tool to create a draft genome file out of a GATK VCF file