macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アセンブリの内容をどれだけ反映したコールであるかに基づいてSVコールを評価する TT-Mars

 

 大規模なシークエンス研究により、一般的な構造バリアント(SV)やレアバリアントなどの遺伝子バリアントと形質や疾患との関連付けが可能になった。SVには、欠失、挿入、重複、50塩基以上のリアレンジメントが含まれ、これらは遺伝的多様性、発達障害、ガンに大きな役割を担っている。SNV などの変異と比較すると、特に SV のサイズとブレークポイントの複雑さが非常に多様であるため、ハイスループットのショートリードデータを用いた SV の検出は歴史的に困難とされてきた。近年、1分子シーケンス(SMS)は、ロングリードまたはそのde novoアセンブリが、特に複雑で反復性のある領域においてSVに及ぶため、高品質の構造バリアントコールセットを生成するために使用されてきた。

 近年、SMS装置のスループットが向上しているが、ショートリードシーケンスは依然として大規模集団のシーケンスの主要な技術となっている。ショートリードシーケンスから得られる様々な情報を用いてSVを検出する多くのアルゴリズムが開発されているが、偽陽性の割合が高いという報告や再現率の低さもある。さらに、複雑なSVの検出はまだ困難であり、SVコーラーは同じゲノムサンプルから異なるSVコールセットを生成してしまうため、完全な高品質SVコールセットの出力がより困難になっている。

 SV検出の限界と課題は、臨床シーケンスにおける重要性と相まって、SVコールセットの精度を評価するための効率的で正確なツールの必要性を動機付けている。このベンチマークのための共通のフレームワークは、複数のシーケンス技術とSV発見アルゴリズムからのコール間のコンセンサスとしてのグランドトゥルースを確立し、新しいコールをグランドトゥルースと比較することである。ゴールドスタンダードを作成する最初のアプローチの1つは、SVを真陽性(TP)、偽陽性(FP)、または不明として分類するために機械学習を使用するsvclassifyであった。最近、Genome in a Bottle Consortium (GIAB) は、幅広い解析手法によって作成された複数のSVコールセットを用いて、大きな(≥50 bp)挿入と欠失の高品質ベンチマークセットを作成した[ref.21]。このベンチマークセットは、アルゴリズムとシーケンスデータの異なる組み合わせによって生成された任意のSVコールセットを評価するために使用することができる。付属のメソッドである truvari は、テストコールとベンチマークコールのブレークポイント間の一致に基づく SV コールの比較に使用され、バリアントのシーケンスを比較するオプションも用意されている。真陽性とみなすには、テストバリアントは、グランドトゥルースコールの指定されたサイズと距離の範囲内でなければならない。このアプローチは、手法の精度をベンチマークするための貴重な基準となっている。しかし、コールセットを比較するという概念は、アルゴリズムが特定の配列を入力としてゲノムの内容をどの程度推定するかを決定するという包括的な目標に対する代理比較と考えることができる。反復領域では、バリアントに対するサポートが同じであるブレークポイントや、アラインメントをスコアリングするためのパラメータに依存するブレークポイントの配置が複数存在する可能性がある。このようなブレークポイントの縮退や、繰り返し領域でのバリアントコールが困難なこともあり、ベンチマークコールセットでは繰り返し領域の多くのバリアントが除外されているが、繰り返し領域はSVに富んでいる。

 アルゴリズムやSMS技術の向上によりde novoアセンブリの品質が向上したため、アセンブリはSVコールセットの生成に利用されている。ハプロタイプresolvedアセンブリに基づくSVコールはGIABの真理値セットに組み込まれ、ハプロタイプresolvedアセンブリは構造的に分岐した領域のベンチマークコールセットを作成するために使用されてきた。しかし、繰り返し領域のコールを比較する難しさは残っている。ここでは、バリアントコールを比較するのではなく、SVコールが意味する配列をアセンブリと比較することで、バリアントコールを検証する代替手法を提案する。これは、GIABからキュレートされたゴールドスタンダードコールセットによる検証方法を補完するもので、十分に高い品質のハプロタイプresolvedアセンブリを持つ任意のゲノムをベンチマークとして含めることができ、明確なブレイクポイントを比較しないため繰り返し領域のSVを検証するのに有効である。このリソースは歴史的に利用できなかったが、最近の1分子シークエンシングとアセンブリの進歩により、高品質のハプロタイプresolvedアセンブリをより日常的に作成することができるようになった。Human Genome Structural Variation Consortium (HGSVC) は、Phred quality scaleが40以上、contig N50値が25 Mb以上のヒトゲノムの32のハプロタイプresolvedアセンブリを作成した [ref.12]。Human Pangenome Reference Consortiumでは、Pacific BiosciencesのHiFiシーケンスリードとhifiasmを組み合わせて、QV50に近い塩基品質と40Mb以上のアセンブリN50値を持つハプロタイプresolved.アセンブリを作成している。この手法は、SVコールが与えられたゲノムを、対応するハプロタイプresolvedアセンブリと比較することにより、SVコール候補を評価するTT-Mars (Structural variants assessment based on haplotype-resolved assemblies) という手法として実装された。

 GIABで高確率とされた領域において、TT-MarsはGIABのゴールドスタンダードコールセットを用いたtruvari解析と整合的な結果を示した。また、TT-Marsは他の2つのベンチマーク手法とも整合的な結果を示した。VaPoRはロングリードの検証ツールであり、dipcall+truvariはアセンブリベースのバリアントコールをゴールドスタンダードとして使用した。VaPoRと比較して、TT-Marsはより少ない入力と短い実行時間で同等の結果を得ることができ、TT-Marsを用いたコールの検証はdipcall+truvariと比較してアライメントギャップのパラメータへの依存度が低いことを実証した。10個のアセンブリを用いて、3種類のショートリードSVコールアルゴリズム、LUMPY, Wham, DELLYと、1種類のロングリードSV検出アルゴリズム、pbsvのコール精度の分布を評価した。このソフトウェアは、アセンブリとアライメントマップをダウンロードするためのユーティリティと共に https://github.com/ChaissonLab/TT-Mars.git で入手できる。

 

 

インストール

 レポジトリの手順に従って依存関係をインストールした(ubuntu18使用)。

本体 Github

git clone git@github.com:ChaissonLab/TT-Mars.git
cd TT-Mars/
mamba create -n ttmars -y
conda activate ttmars
mamba install -c bioconda pysam mappy pybedtools -y
mamba install -c anaconda numpy -y
mamba install -c conda-forge biopython -y

 

用意されたデータを使ったラン

#download required files
bash download_files.sh
#download assembly files of 10 samples from HGSVC
bash download_asm.sh

run_ttmars.sh

ダウンロードに2日かかった。テスト用のスクリプトを実行するとエラーが起きる。

 

引用

TT-Mars: structural variants assessment based on haplotype-resolved assemblies
Jianzhi Yang & Mark J.P. Chaisson 
Genome Biology volume 23, Article number: 110 (2022)