ヒトDNAシーケンス研究では、多くの場合、複数の研究所や個人によるDNAサンプルと関連するマニフェストの取り扱いが含まれる。 WESとWGSの両方のプロトコルには、シーケンス前の複数のDNA操作が含まれる。新しい手順や処理はそれぞれ、サンプルの混同、汚染、または誤表示の別の機会となり得る。 1つのDNAの混同でも、発見と診断の力を破壊する可能性がある。たとえば、ヒト疾患のファミリー研究で検出されないDNAスワップ(たとえば、罹患していない父親が罹患した息子と交換される)は、遺伝子診断を妨げ、誤解を招く候補バリアントを生成する。サンプルエラーがなくても、コホート内の個人の関連性に関する重要な情報を含むサンプルマニフェスト(PED fileなど)には、サンプルの命名エラーまたはスワップが含まれる場合がある。著者らの経験では、ファミリー関係は、多くの場合、研究者から描かれた血統図から手動でtranscribeされる。さらに、大規模な研究では、意図せずに研究で何度も代表されている同じ被験者を知らないうちにリクルートする可能性がある。このようなエラーは、慎重に確認しないと簡単には気付かない場合がある。
したがって、品質管理の重要な側面は、シーケンスされた各DNAサンプルが予想される個人に由来することを保証することである。残念ながら、これらのサンプルレベルの品質管理の問題は、生のシーケンシングデータを活用する既存のツール(FastQCなど)やシーケンスアライメント(bam.iobio、 samtoolsなど)を活用する既存のツールでは検出されない。 PLINKやKINGなどのツールは性別や血統のエラーを検出できるが、テキスト出力のみを生成するため、サンプルの問題を検出するには、カスタムスクリプトをさらに手動で検査する必要がある。他のツールは、サンプルの遺伝子型データから血統構造を推測することができるが、サンプルのスワップを特定して解決するのは面倒である。サンプルDNAの忠実性に関する問題の堅牢で迅速な自動検出の必要性に対処するために、Peddyを開発した。PeddyはヒトのWESまたはWGSの研究から得られたVCFファイルを入力とする。 Peddyは高速でユーザーフレンドリーである。1つのコマンドで、VCFおよび関連するPEDファイルでさまざまなサンプル分析を直接実行できる。結果として得られるインタラクティブなWebページとコンマ区切り(CSV)ファイルは、各サンプルの各品質管理テストの結果と、どのサンプルがスワップされたか、ラベルが間違っているか、DNA品質が低い可能性が高いかを示す。
Peddyは、VCFファイルで報告された遺伝子型を調べて、4つの主要な統計に基づいて潜在的なサンプル品質の問題を特定する。まず、各サンプルの記載された性別を、X染色体で観察された遺伝子型と比較する。次に、サンプルの各ペア間で観察された関連性の程度を、PEDファイルに記載されている内容に基づいて予想される関連性の尺度と比較する。第三に、サンプルの品質は、個体がヘテロ接合している部位の各対立遺伝子の数、シーケンシングデプス、およびシーケンスアラインメントの比率によって評価される。これらの測定値のばらつきにより、DNAの混入、予期しない多様性、不十分なシーケンシングデプスの検出が容易になる。最後に、各サンプルの祖先は、1000ゲノムプロジェクトの多様な祖先の個人でトレーニングされたサポートベクターマシン(SVM)を使用して予測される。
Document
https://peddy.readthedocs.io/en/latest/
PED/FAM file
https://www.cog-genomics.org/plink2/formats#fam
インストール
macのPython 3.7.4環境でテストした(conda createで仮想環境を作ってテスト)。
依存
本体 GIthub
#bioconda (link)
conda create -n peddy -c bioconda -y peddy
> peddy -h
$ peddy -h
Usage: peddy [OPTIONS] VCF PED
pleasingly pythonic pedigree manipulation
Options:
--plot
-p, --procs INTEGER number of processors to use
--prefix TEXT prefix for output files (default is basename
of vcf)
--each INTEGER sample every nth value from the selected
sites instead of every value to speed
processing.
--sites TEXT The path to a file with alternative sites to
use for calculating relatedness in format
1:234234
1:45345345... with
chrom:pos[:ref:alt] on each line. The
special-case of 'hg38' for this will use
hg38 sites shipped with peddy.
--loglevel [DEBUG|INFO|WARNING|ERROR|CRITICAL]
Set the level of log output. [default:
INFO]
--version Show the version and exit.
-h, --help Show this message and exit.
テストラン
VCFとPEDファイルを指定する。defaultではhg19/GRCh37アセンブリを使う(hg38に変えるには--sites hg38を使う。document参照)。
python -m peddy -p 4 --plot --prefix ceph-1463 data/ceph1463.peddy.vcf.gz data/ceph1463.ped
- -p number of processors to use
- --prefix prefix for output files (default is basename of vcf)
2019-10-14 17:54:38 kamisakakazumanoMac-mini.local peddy.cli[861] INFO ran in 1.4 seconds
/Users/kazu/Documents/peddy/peddy/cli.py:224: FutureWarning:
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing
See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
ped_df[col_name] = list(df[col].ix[samples])
2019-10-14 17:54:38 kamisakakazumanoMac-mini.local peddy.cli[861] INFO sex_check
2019-10-14 17:54:38 kamisakakazumanoMac-mini.local peddy.peddy[861] INFO sex-check: 0 skipped / 814 kept
2019-10-14 17:54:38 kamisakakazumanoMac-mini.local peddy.cli[861] INFO ran in 0.1 seconds
4つのCSVファイルと4つのQCプロットが生成される。 これらは以下を示している(Githubより)。
- pedでの報告された関係と遺伝子型で推定された関係の不一致
- pedで報告された性別と遺伝子型で推定された性別の不一致
- heterogousコールレベルが高い、デプスが低い、またはb-allele-frequencyの分散が大きい(ref /(ref + alt))サンプル。
- 1000ゲノムからのPCAに基づく祖先予測
計算が終わると、最後にpedファイルceph1463.peddy.pedが生成される。このファイルには、最も有用なhet-checkおよびsex-checkのカラムもリストされている。
レポートceph-1463.html
ceph-1463.vs.html
各プロットの詳細な説明についてはドキュメント参照(link)。
引用
Who’s Who? Detecting and Resolving Sample Anomalies in Human DNA Sequencing Studies with Peddy
Brent S. Pedersen, Aaron R. Quinlan
Am J Hum Genet. 2017 Mar 2; 100(3): 406–413. Published online 2017 Feb 9