（ヒトゲノム）ミトコンドリアハプロタイプを検出することでサンプルの汚染を検出する Haplocheck

　ヒトのミトコンドリアDNA（mtDNA）は、長さ16.6kbの核外DNAである（Andrews et al）. mtDNAは母系を介してのみ継承され、世界的にヒトの母系の系統と女性の（前）歴史的な人口動態パターンの再構築を容易にしている。mtDNAの厳密な母方遺伝は、ハプロタイプの配列ハプロタイプをハプログループと呼ばれる単系統のクラスターに自然にグループ化する。さらに、次世代シークエンシング（NGS）または大規模並列シークエンシング（MPS）により、ミトコンドリアゲノム全体のヘテロプラスミーの検出が可能になった。ヘテロプラスミーとは、調査対象の生物学的サンプル（細胞や組織など）において、少なくとも2つの異なるmtDNAハプロタイプが存在することを指す。シーケンシングのカバレッジにもよるが、ヘテロプラスミックな位置は1%のバリアントレベルまで確実に検出可能である(Weissensteiner et al. 2016; Ye et al. 2014)。近年、ミトコンドリアデータにおける見かけのヘテロプラスミーに関する問題とデータの解釈は、いくつかの研究（Bandelt and Salas 2012; He et al. 2010; Ye et al. 2014; Just et al. 2014a）で取り上げられ、その結果、シーケンシング研究から得られたmtDNAデータの品質に関する包括的なレビューが行われている（Just et al. 2015）。研究ではヘテロプラスミーの存在を大幅に過大評価していることが示されており、これはしばしば外部汚染(Yao et al. 2007; Just et al. 2014b, 2015; Brandhagen et al. 2020)、人工組換え(Bandelt et al. 2004)、人工物や解析ソフトウェアの不整合(Weissensteiner et al. 2016)によって説明されることがある。核内 DNA（nDNA）と mtDNA のシーケンシング研究では、サンプルの汚染がいまだに大きな問題となっており、過去に Sanger シーケンシング研究で発生したようなミスを防ぐ必要がある (Salas et al. 2005)。 NGS の精度と感度が向上した計算モデルが利用可能になったことにより、全ゲノムシークエンシング（WGS）研究では、種内汚染は 1%レベルまで追跡可能になった (Jun et al. 2012)。 mtDNAシーケンシング研究におけるコンタミネーションを検出するためのいくつかのアプローチが存在する。最近の研究(Weissensteiner et al. 2016)では、ヘテロプラスミーとして観察される系統的に相容れないミトコンドリアハプロタイプの共存に基づくコンタミネーションアプローチが、既に他の研究者によって実証されているように実現可能であることを示した(Avital et al. 2012; Li et al. 2010, 2015)。他の方法としては、Galaxy-based approach (Dickins et al. 2014)などがあり、neighbor joining treesを構築することで汚染のチェックを容易にしている。 Mixemt (Vohr et al. 2017) は、ミトコンドリア系統を組み込み、各配列を読み込んだ際に最も確率の高いハプロタイプを推定している。Mixemt で実装された計算量の多いアルゴリズムは、1 つのサンプル内の複数のハプロタイプの汚染検出に有利であり、バリアント頻度に依存しない。古代DNAの研究では、schmutzi(Renaud et al. 2015)は、汚染を推定するために配列のdeamination patternsとフラグメント長分布を使用している。さらに、ダブルバーコードシーケンシングアプローチを含む、汚染を排除するための特定のラボプロトコルが設計された(Yin et al. 2019)。ミトコンドリア研究における汚染検出のために、VerifyBamID(Zhang et al. 2020; Jun et al. 2012)のような広く受け入れられているソフトウェアツールを適用して、DNAのクロスコンタミネーションを調査することがよくある(Wei et al. 2019; Ding et al. 2015; Yuan et al. 2020)。それにもかかわらず、汚染を簡単に検出し、ミトコンドリア研究における実際のヘテロプラスミックな位置と区別するためのツールがないことが明らかになってきた。 mtDNAも細胞の種類によっては細胞あたり数百倍から数千倍の割合で存在しているため、常染色体ゲノムに特化したWGSデータでもミトコンドリアゲノムのカバレッジが高い。そこで、mtDNAのみを見ることで、nDNAの汚染度を推定できるのではないかという仮説を立てた。

　本論文では、コンタミネーション検出のためにmtDNA系統図を使用するアプローチを体系的に評価し、NGS研究におけるコンタミネーション検出ツールとして使用できるhaplocheckソフトウェアを紹介する。ウェットラボとインシリコの異なるデータセットを用いて、haplocheckがヘテロプラズム位置を正確に検出できることを示し、mtDNA研究においても1%までのコンタミネーションを検出できることを示している。in-silicoのWGSデータを作成し、1000 Genomes Projectのデータを再解析することで（1000 Genomes Project Consortium et al. 2015）、haplocheckがnDNA汚染レベルを推定するための効率的なプロキシとして使用できることを示し、ミトコンドリアのコピー数（mtCN）の影響を調査した。最後に、Haplocheckがサンプル内で同定されたハプロタイプに起因する汚染源の発見に役立つことを示す。

Haplocheck: Contamination Detection in mtDNA and whole-genome sequencing studies

https://haplogrep.i-med.ac.at/2019/12/20/introducing-haplocheck/

Mitoverse （cloud web service）

https://mitoverse.i-med.ac.at/index.html#!

wiki

Contamination Method - Mitoverse

インストール

Github

mkdir haplocheck 
cd haplocheck
curl -s install.cloudgene.io | bash 
./cloudgene install https://github.com/genepi/haplocheck/releases/download/v1.1.3/haplocheck.zip

> ./cloudgene run haplocheck@1.1.3

$ ./cloudgene run haplocheck@1.1.3

Cloudgene 2.2.0

http://www.cloudgene.io

Built by travis on 2020-05-07T11:59:20Z

Haplocheck 1.1.3

ERROR: Missing required option: files

usage: input parameters:

--baseQ <number> Minimal Base Quality

(default: 20)

--conf <arg> Hadoop configuration folder

--files <local_folder> Input Files (VCF/BAM/CRAM)

--force Force Cloudgene to reinstall application in

HDFS even if it already installed.

--level <number> Level

(default: 0.01)

--mapQ <number> Minimal Map Quality

(default: 20)

--output <arg> Output folder

--show-log Stream logging messages to stdout

--show-output Stream output to stdout

--user <arg> Hadoop username [default: cloudgene]

テストラン

#Download 1000G Phase3 Data
wget https://github.com/genepi/haplocheck/raw/master/test-data/contamination/1000G/all/1000g-nobaq.vcf.gz 
 
#Run haplocheck
./cloudgene run haplocheck@1.1.3 --files 1000g-nobaq.vcf.gz --output results 
 
#open results in firefox
firefox results/report/report.html

Haplocheckは、各ミトコンドリア入力サンプルの汚染状況をレポートし、(a)グラフィカルなレポートと(b)テキストを出力する。

出力

汚染が検出されたサンプル

f:id:kazumaxneo:20200716234246p:plain

f:id:kazumaxneo:20200716234423p:plain

汚染が検出されなかったサンプル

f:id:kazumaxneo:20200716234246p:plain

summary

f:id:kazumaxneo:20200716234248p:plain

表は、特定のサンプルでフィルタリング、ソート、検索したりできる。さらに、各サンプルについて、系統樹は Phylotree 17からのグラフ情報を用いて生成される。ツリーはルートノード(rCRS)から始まり、最終的なハプログループ(Haplogrepによって割り当てられた)に到達するまでの各遷移のホモプラスミック(青)/ヘテロプラスミック(緑)の位置を示している。2つの枝は、メジャープロファイルとマイナープロファイルの最終的なミトコンドリアハプログループを表す。

引用

Haplocheck: Phylogeny-based Contamination Detection in Mitochondrial and Whole-Genome Sequencing Studies
Hansi Weissensteinera, Lukas Forera, Liane Fendta, Azin Kheirkhaha,
Antonio Salasb, Florian Kronenberga, Sebastian Schoenherra

bioRxiv, May 8, 2020

参考