DNAサンプル汚染の検出と推定は、高品質の遺伝子型コールと信頼性の高いダウンストリーム分析を確保するための重要なステップである。既存の方法は、汚染率の正確な推定のために母集団対立遺伝子頻度情報に依存している。シーケンス解析の初期段階で各個体の集団対立遺伝子頻度を正しく指定することは、多様な集団にわたる複数の研究からのサンプルを同時に処理する大規模なシーケンシングセンターにとって非現実的または不可能ですらある。一方、対立遺伝子の頻度を誤って指定すると、推定汚染率にかなりの偏りが生じる可能性がある。たとえば、既存の方法では、遺伝的祖先が誤って指定されている場合、一般的な3%の汚染除外しきい値で10%の汚染サンプルを特定できないことがよくある。汚染されたサンプルのこのような不完全なスクリーニングは、深くシーケンシングされたゲノムおよびエクソームにおいてさえ、遺伝子型決定エラー率を大幅に増大させる。
DNA汚染を正確に推定し、目的のサンプルまたは汚染サンプルの遺伝的祖先にとらわれない堅牢な統計的手法を提案する。この方法は、参照遺伝子型から主成分座標に投影された個体固有の対立遺伝子頻度を活用することにより、統一された尤度フレームワークで遺伝的祖先とDNA汚染の推定を統合する。この方法が、さまざまな集団および汚染率における汚染率を堅牢かつ正確に推定することを実証する。さらに、汚染が存在する場合、汚染が無視されると遺伝的祖先の定量的推定値(主成分座標など)が大幅に偏ることがあり、提案された方法がこの偏りを補正することを実証する。このメソッドはhttp://github.com/Griffan/verifyBamIDで公開されている。
https://genome.sph.umich.edu/wiki/VerifyBamID
インストール
ubuntu18.04のdocker環境でテストした(ホストOSはmacos10.14)。
本体 Github
#bioconda (link)
conda install -c bioconda -y verifybamid
> verifyBamID
# verifyBamID
verifyBamID 1.1.3 -- verify identity and purity of sequence data
(c) 2010-2014 Hyun Min Kang, Goo Jun, and Goncalo Abecasis
Available Options
Input Files : --vcf , --bam , --bai ,
--subset , --smID
VCF analysis options : --genoError [1.0e-03],
--minAF [0.01],
--minCallRate [0.50]
Individuals to compare with chip data : --site, --self, --best
Chip-free optimization options : --free-none, --free-mix [ON],
--free-refBias, --free-full
With-chip optimization options : --chip-none, --chip-mix [ON],
--chip-refBias, --chip-full
BAM analysis options : --ignoreRG, --ignoreOverlapPair,
--noEOF, --precise, --minMapQ [10],
--maxDepth [20], --minQ [13],
--maxQ [40], --grid [0.05]
Modeling Reference Bias : --refRef [1.00], --refHet [0.50],
--refAlt [0.00]
Output options : --out , --verbose
PhoneHome : --noPhoneHome,
--phoneHomeThinning [50]
FATAL ERROR -
--vcf [vcf file] required
実行方法
ランには外部遺伝子型または対立遺伝子頻度情報を含むVCFファイルとBAMファイルが必要。VCFには常染色体のSNP情報のみ記載されている必要がある(MNPも不可)。VCFのIDとBAMのIDは一致していなければならない。
verifyBamID --vcf input.vcf --bam input.bam --out output --verbose --ignoreRG
引用
Ancestry-agnostic estimation of DNA sample contamination from sequence reads
Fan Zhang, Matthew Flickinger, Sarah A. Gagliano Taliun, InPSYght Psychiatric Genetics Consortium, Gonçalo R. Abecasis, Laura J. Scott, Steven A. McCaroll, Carlos N. Pato, Michael Boehnke, Hyun Min Kang
Genome Research. Published in Advance January 24, 2020