macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(ヒトゲノム)個人のサンプルが汚染または交換されている可能性があるかどうかを調べる verifybamid

 

 DNAサンプル汚染の検出と推定は、高品質の遺伝子型コールと信頼性の高いダウンストリーム分析を確保するための重要なステップである。既存の方法は、汚染率の正確な推定のために母集団対立遺伝子頻度情報に依存している。シーケンス解析の初期段階で各個体の集団対立遺伝子頻度を正しく指定することは、多様な集団にわたる複数の研究からのサンプルを同時に処理する大規模なシーケンシングセンターにとって非現実的または不可能ですらある。一方、対立遺伝子の頻度を誤って指定すると、推定汚染率にかなりの偏りが生じる可能性がある。たとえば、既存の方法では、遺伝的祖先が誤って指定されている場合、一般的な3%の汚染除外しきい値で10%の汚染サンプルを特定できないことがよくある。汚染されたサンプルのこのような不完全なスクリーニングは、深くシーケンシングされたゲノムおよびエクソームにおいてさえ、遺伝子型決定エラー率を大幅に増大させる。

 DNA汚染を正確に推定し、目的のサンプルまたは汚染サンプルの遺伝的祖先にとらわれない堅牢な統計的手法を提案する。この方法は、参照遺伝子型から主成分座標に投影された個体固有の対立遺伝子頻度を活用することにより、統一された尤度フレームワークで遺伝的祖先とDNA汚染の推定を統合する。この方法が、さまざまな集団および汚染率における汚染率を堅牢かつ正確に推定することを実証する。さらに、汚染が存在する場合、汚染が無視されると遺伝的祖先の定量的推定値(主成分座標など)が大幅に偏ることがあり、提案された方法がこの偏りを補正することを実証する。このメソッドはhttp://github.com/Griffan/verifyBamIDで公開されている。

 

wiki

https://genome.sph.umich.edu/wiki/VerifyBamID

 

インストール

ubuntu18.04のdocker環境でテストした(ホストOSはmacos10.14)。

本体 Github

#bioconda (link)
conda install -c bioconda -y verifybamid

verifyBamID

# verifyBamID 

verifyBamID 1.1.3 -- verify identity and purity of sequence data

(c) 2010-2014 Hyun Min Kang, Goo Jun, and Goncalo Abecasis

 

 

Available Options

                             Input Files : --vcf , --bam , --bai ,

                                           --subset , --smID

                    VCF analysis options : --genoError [1.0e-03],

                                           --minAF [0.01],

                                           --minCallRate [0.50]

   Individuals to compare with chip data : --site, --self, --best

          Chip-free optimization options : --free-none, --free-mix [ON],

                                           --free-refBias, --free-full

          With-chip optimization options : --chip-none, --chip-mix [ON],

                                           --chip-refBias, --chip-full

                    BAM analysis options : --ignoreRG, --ignoreOverlapPair,

                                           --noEOF, --precise, --minMapQ [10],

                                           --maxDepth [20], --minQ [13],

                                           --maxQ [40], --grid [0.05]

                 Modeling Reference Bias : --refRef [1.00], --refHet [0.50],

                                           --refAlt [0.00]

                          Output options : --out , --verbose

                               PhoneHome : --noPhoneHome,

                                           --phoneHomeThinning [50]

 

 

FATAL ERROR - 

--vcf [vcf file] required

 

 

 

実行方法

ランには外部遺伝子型または対立遺伝子頻度情報を含むVCFファイルとBAMファイルが必要。VCFには常染色体のSNP情報のみ記載されている必要がある(MNPも不可)。VCFのIDとBAMのIDは一致していなければならない。

verifyBamID --vcf input.vcf --bam input.bam --out output --verbose --ignoreRG

 

 

引用

Ancestry-agnostic estimation of DNA sample contamination from sequence reads

Fan Zhang, Matthew Flickinger, Sarah A. Gagliano Taliun, InPSYght Psychiatric Genetics Consortium, Gonçalo R. Abecasis, Laura J. Scott, Steven A. McCaroll, Carlos N. Pato, Michael Boehnke, Hyun Min Kang

Genome Research. Published in Advance January 24, 2020