2018-08-26

review article要約　バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/

　シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進めることができるようになった。経験が増すにつれて、研究者は、新しいシーケンシングプラットフォームによって提供される豊富なデータを分析し、堅牢な結果を得るためには、細部への注意深い観察が必要であることを認識するようになっている。これまでのところ、サイエンスコミュニティの関心の多くは、ゲノムアセンブリアルゴリズムを評価し、アセンブリプログラムの性能を厳密に検証することに重点を置いていた。しかし、これらのゲノムのバリアントコーラーのクリティカルな評価に焦点を当てた研究は欠落している。ヌクレオチドレベルの生物的相違についての洞察を得るために、比較ゲノミクスにはバリアントコーラーが不可欠である。バリアントコールは、多段階のプロセスであり、潜在的なエラーソースとして誤ったバリアントコールが発生する恐れがある。これらの不正確なコールを特定して解決することは、バクテリアゲノムの進歩には不可欠である。このレビューの目的は、バクテリアゲノミクスのためのバリアントコーラーで使用されるアルゴリズムとパイプラインの検証に関するガイダンスを提供することである。まず、バリアントコールの概要と、そのメソッドに関連する潜在的なエラーの原因を示す。次にアルゴリズムのパフォーマンスを評価するための統計的方法を記述する。このレビューがこれらの基準の開発の基礎を提供することが著者らの希望である。

NIST（National Institute of Standards and Technology, wiki）の研究者らの論文です。ただし、組織を代表しての内容ではないと記載されています。

本文要約

Introduction

　次世代シークエンシング（NGS）は微生物学を変え、広範な種のゲノム解析を可能にした。しかし、1サンプルあたり数百万のシークエンシングリードを有意義なデータに変換することは容易ではなく、ゲノムアセンブリ、シーケンスリードのアライメント、およびバリアントコールはすべて結果に大きな影響を与える可能性がある。ヒトゲノムにおけるこれらの問題に対処するためにかなりの努力が払われており、ヒト疾患に関連したゲノム変化を見出すことはプライマリな目標となっている。バクテリアゲノムからのバリアントは、リファレンスゲノム選択、カルチャーのレアバリアントの存在、バリアントコールのためde novoゲノムアセンブリを使うことなど、さらなる課題を提示している。微生物ゲノムからバリアントをコールするために使用される方法の多様性のために、特定の生物や実験系に最適化したバイオインフォマティクス手法がしばしば必要とされている。

変異には、一塩基多型（SNP）、挿入および欠失（indels）、または構造変異を含み得る。ここでは、SNPとindelsに焦点を当てる。 SNPとindelのコールメソッドは、リファレンスとの間で相対的な多型を持つゲノムの位置を特定することで行われる（Nielsen et al、2011を参照）。 SNPおよびindelコールは、リファレンスゲノムに直接リードをマッピングするか、またはリードをデノボアセンブリして、アセンブリをリファレンスゲノムと比較することによって達成される。
SNP探索では、rawシーケンスリードを使用すると、ゲノムアセンブリを使用するよりも高い解像度が得られる。rawシーケンスリードでは、カバレッジデプスと混在した対立遺伝子の割合の両方を定量化することができる。未処理のシーケンスリードが利用可能な場合、シーケンスリードをアセンブリにマッピングしてカバレッジおよび対立遺伝子の割合を得ることができる。しかしながら、closedのリファレンスゲノムが欠如している場合は、マッピングエラーのために対立遺伝子の割合に偏りを引き起こす可能性がある（*3）。
SNPの同定はバクテリア比較ゲノミクスにとって重要な方法で、SNPベースの分析がアウトブレイクの原因分析に利用されている（Hendriksen et al、2011）。系統学（Keim and Wagner、2009）、およびGWASアプリケーション（GWAS; Nelson et al、2014）には、SNPベースの解析が使用されている。 SNPはまた、ヒトGWAS適用においても広範に使用されている（Cantor et al、2010）。
ヒトとバクテリアのバリアントコールを比較すると、類似点と相違点の両方が見られる。ヒトリファレンスゲノムは個々のバクテリアゲノムの約1000倍であり、また、ヒトゲノムはdiploidであるのに対して、バクテリアゲノムは一般にhaploidである。したがって、ヒトのバリアントコーラーで使用されている仮定および統計は、バクテリアゲノムにはしばしば最適ではない。
バクテリアゲノムの突然変異数が少ないことは、ヒトの潜在的な偽陽性（FP）をフィルタリングするために使用されているいくつかの機械学習の方法がバクテリアゲノムでは上手く機能しておらず、微生物シーケンスアプリケーションによって異なるフィルタリング閾値が必要であることを意味している（*4）。さらに、いくつかのバクテリアゲノムは突然変異率が高いため、ごく一部の細胞で突然変異が含まれ、それゆえheterogeneousである可能性がある。この例は、ヒトガン細胞での体細胞変異により類似している。
以上の相違点すべては、同じバリアントコーラーがヒトシーケンシング解析で検証されていたとしても、バクテリアのシーケンシング解析では改めて検証が行われるべきであることを意味している。

　現在、SNPとindelコール方法を評価するため広く受け入れられているガイドラインはない（*1）。ガイドラインが不足しているため、SNPおよびindelコールメソッドのパフォーマンスに関する多様な、一貫性のない、解釈が難しい文献が作成されている。この問題に対処するため、SNPとindelのコール方法を評価するための一般的なガイドラインを作成した。

SNP / indelコールの流れ

　バリアントコールメソッドの評価から有意義な結論を引き出すためには、バリアントを識別するために使用されたプロセスをまず理解する必要がある。この測定プロセスには、サンプル処理（DNA抽出、ライブラリ作成）、シークエンシング、マッピング（またはデノボアセンブリ）、続いてバリアントコールが含まれる（Altmann et al、2012の図11）。

１、サンプル調整とシーケンシング

DNAはバクテリアカルチャーから抽出、精製され、ライブラリー調製時にアダプターおよび固有のバーコードが添加される。得られたライブラリーまたはプールしたライブラリーをシーケンシングする（NGSプラットフォームのレビューについては、Metzker、2010; Pabinger et al、2013参照）。
base callはシーケンシングプラットフォームによって自動的に生成される。アルゴリズムは、各basecallに対してbase quality score （BQS）をアサインする。これは、塩基が正しく呼び出された確率を反映することを目的としている。 BQS値は–10 logPとしてphredスケール（1-60）に与えられ、Pは誤ったベースコールの確率である（Ewing and Green、1998; Pavlopoulos et al、2013）。たとえばBQSが20の場合は、塩基が誤ってコールされた確率が100分の1であることを意味する。 BQSは、バリアントクオリティスコア（通常はフレッドスケールで表される）をアサインするときに、バリアントコールソフトウェアに一般的に通知される。

２、シーケンシングとSNPコール

このレビューでは、一般的に使用されているマッピングベースとデノボアセンブリベースのバリアントコールアプローチについて説明する。

マッピングによるSNPコール

リードは最初にマップされ、バリアントコール前にアライメントを洗練する重複リード除去、base quality score （BQS）再キャリブレーション、およびindel リアライメントの一連のステップが実行される。先行研究では、ショートリードマッピングツールの評価に、異なるアルゴリズムの性能評価を行っている（例えば、Fonseca et al、2012; Schbath et al、2012; Hatem et al、2013; Nagarajan and Pop、 2013）。
ほとんどのマッピングプログラムは、リードがリファレンス上に正確に配置されてることの確信を示すために、phred scaleのマッピングクオリティスコア（wiki）を割り当てる（Gallagher and Desjardins、2008）。異なるマッピングアルゴリズムによって生成されたマッピングクオリティスコアは一般に互いに比較できないが、一般に、より短いリードや複数のゲノム領域（例えば、リピート領域）へマッピングされるリードはより低いマッピングクオリティスコアが割り当てられる。
マッピング結果のファイル：通常はSequence Alignment / Map（SAM）ファイルのバイナリーバージョン（BAM）、には、バリアントコールエラーを減らすために追加の処理が行われる。これには上述のように重複リード除去、BQS再キャリブレーション、およびindelsリアライメントが含まれる。重複リードは、シーケンシングライブラリー調製プロセスのPCRに伴うアーチファクトとして生じたり、同じ断片が2回読み取られる（すなわち、光学的重複）場合に生じ得る。重複はバリアントコールをサポートする塩基の人為的な増加をもたらし（独立したリードからの情報ではない）、バリアントコールの信頼性の誤った増加につながるため、マッピングステップ前後に削除する必要がある（DePristo et al、2011）。低サイクルまたは完全にPCRフリーのライブラリー調製法では、重複リードが起こりにくい。
BQS再キャリブレーションは、クオリティスコアの精度を向上させ、コールされたバリアントの精度を高めるのに役立つ（DePristo et al、2011; Zook et al、2012）。再較正するためには、信頼度が高いことがわかっているリファレンスゲノム中のポジションのシーケンスエラー率を、シーケンシングプラットフォームがアサインしたBQSと比較する（*4）。もともとアサインされたBQSと既知ポジションで観測されたベースコールエラー率の差異に基づいて、データセット全体のBQSは再較正される。
Indelsおよび他の構造変異は、不正確なリードのマッピングを引き起こし、偽陰性（FN）および偽陽性（FP）SNPおよびindelコールを引き起こす（Alkan et al、2011）。したがって、リードのマッピング精度を向上させるリードのリアライメント（GATK IndelRealignerなど）、またはローカルde novoアセンブリ（GATK HaplotypeCallerなど）などのアルゴリズムが開発され、不正確なバリアントコールの減少に繋がっている（Homer and Nelson、2010; DePristo et al、2011）。

マッピングデータからSNPをコールする

最後にバリアントコールアルゴリズムはマッピングされたリードをリファレンスゲノムと比較し、潜在的なバリアントを同定する。 SNPおよびindelコールアルゴリズムは、候補バリアントを同定するアプローチが異なる（Altmann et al、2012 pubmed 論文要約）。
基本的なアルゴリズムは、関心のあるゲノム位置のリファレンス塩基と一致しない、高い信頼度のベースコールの数に基づいてバリアントを同定するものである。より洗練されたアルゴリズムは、ベイジアン、尤度、または機械学習の統計的方法を使用して、ベースおよびマッピングクオリティスコアなどのパラメータを考慮して、候補バリアントを識別する（Pabinger et al （2013）（pubmed）を参照）。
同定された推定SNPおよびindelは、次のセクションで説明する系統誤差に関連するいくつかのパラメータを使用してフィルタリングすることができる。これによってFPは減少するが、FN増加のリスクも伴う。

de novo AssembliesからSNPをコールする

パンゲノム比較、オペロン構造決定、またはpopulation内のゲノムシンテニーなどの比較ゲノミクスの多くのアプリケーションでは、デノボゲノムアセンブリを必要とする。ショートリードデータのde novoアセンブリではde Bruijn graph法が一般的に使用されている（Chaisson and Pevzner、2008）が、オーバーラップレイアウトコンセンサスも有効に使用できる（Loman et al、2012）。両手法とも、ペアエンド情報を使うことで、アセンブリの連続性（contiguity）を増加させ、scaffoldsの作成を促進する。
graphベースの方法では、k-merサイズ（基本文字列の長さ）の選択はアセンブリの連続性および/または完全性に影響を与える可能性がある（ChikhiおよびMedvedev、2014）。 Velvet（Zerbino and Birney、2008）のようないくつかのデノボアセンブリ法では、単一のk-mer値が頻繁に選択される。より新しいSPAdes（Bankevich et al、2012）やIDBA（Peng et al、2010）などの方法では、複数k-mer範囲のアセンブリがマージされ、アセンブリから失われるシーケンス量が制限される。
SPAdesには、マッピングを組み合わせてエラープロファイルを減らすことができるBayesHammerショートリードコレクションツール（Nikolenko et al、2013）も組み込まれている。さらに、アセンブリ前にrawデータから低クオリティ領域を除去するクオリティフィルタリングは、ゲノムアセンブリの品質を改善することが実証されている（Del Fabbro et al、2013 pubmed）。
複数のバイオインフォマティクスパイプラインがデノボアセンブリ用に公開されているが、顕著な性能変動が観察されている（Magoc et al、2013 pubmed ( GAGE-B)）。完成したゲノムを用いたベンチマーク比較に基づくと、アセンブラの中で最も重要な不一致の1つは、アセンブリ配列の保持量である。より長いリードを生成するシークエンシングプラットフォームが普及するにつれて、completeなバクテリアゲノムは自動的に生成され（Koren and Phillippy、2015 pubmed）、不完全なドラフトアセンブリによる制限が取り除かれつつある。

アセンブリからSNPをコールする

SNPはゲノムアセンブリから同定することができるが、カバレッジはアセンブリの各位置で1倍であるため、カバレッジが不十分の偽のSNPをフィルタリングできず、汚染されたゲノムを同定して除去することもできない（*2）。
個々の遺伝子についてのSNPは、BLASTN（Altschulら、1990）を用いてアラインメントを抽出し、続いてSNPのペアワイズアラインメントによって同定できる。
全ゲノムアセンブリのSNPは、MUMmer（Kurtz et al、2004）（紹介）、Mugsy（Angiuoli and Salzberg、2011）（簡単な紹介）、Mauve（Darling et al、2004）（紹介）などのソフトウェアで行われた全ゲノムアライメントから典型的に同定される。 kSNP（Gardner and Hall、2013）およびparSNP（Treangenら、2014）（harvest紹介）を含むゲノムアセンブリからの全ゲノム系統のSNP同定ソフトウェアも開発されている。
アセンブリを使用したSNP同定は、個々の遺伝子を解析したり、巨大なデータセットを処理したり、raw readが利用できない場合に役立つ。しかし、SNP検出のためにアセンブリを使用する場合、SNPは、基礎となるrawリードデータで評価したり検証することはできない。

エラーのソースとその軽減方法

SNPおよびindelコールに関連するエラーのタイプとソースを理解することは、結果の評価を容易にするだけでなく、メソッドのパフォーマンスを最適化することにも繋がる。いくつかのタイプのエラーは、SNPおよびindelの同定の正確さに影響を及ぼし得る。これらのエラーは、サンプル処理中のケミカルなプロセスや、電子的プロセス、ならびにシーケンスデータのバイオインフォマティクス処理（base calling、マッピングまたはde novoアセンブリ、およびSNP / indellコール）中に起こる（Nielsen et al、 2011）。さまざまなステップに関連するエラーの原因を図2に示す（FIGURE 2 ）。
上記のプロセスの間に発生するエラーは、ランダムまたは系統的であり得る。ランダムエラーは予測不可能な方法で発生するが、サンプルサイズが十分大きい場合、結果が不正確になることはない。システマティックなエラーは予測可能な方法で発生し、それが説明されていないと不正確な結果につながる可能性があり、しばしばtrueの結果と測定結果との間にバイアスや差異をもたらす。
エラーの相対的な影響は、サンプル調製方法、シーケンシングプラットフォーム、または使用されるバイオインフォマティクス分析に基づいて変化し得る。次のセクションでは、発生する可能性があるエラーの種類と、FPまたはネガティブバリアントコールに関連するエラーを最小限に抑えるための軽減策について説明する。

サンプル調整に関連したエラー

ほとんどのNGSプラットフォームはDNAの増幅を必要とするので、ライブラリ調製に伴うランダムおよびシステマティックなシーケンスエラーは、主に複製中のDNAポリメラーゼの不忠実性によるものである。これらの複製エラーにより、不適切な塩基が挿入、欠失され、また任意の位置で置換が起きる（Ross et al、2013）。
置換エラーは無作為でありDNAポリメラーゼの忠実度に左右されるが（10^3 - 10^6塩基あたり1エラー、Showalter and Tsai、2002 pubmed）、これは典型的なシーケンスエラー（10^2 - 10^3塩基あたり１エラー、McElroy et al、2014）より1000〜10000倍割合が低い。
一般にシーケンスデプスが20倍を超えると、ランダムなポリメラーゼのエラーはバリアントコールにほとんど影響しない（Cline et al、1996 pubmed; Metzker、2010 pubmed; Zook et al、2012 pubmed）。
最新のライブラリ調製システムは忠実度の高いポリメラーゼも含み、ポリメラーゼエラーをさらに最小限に抑える。しかし、ホモポリマー（同一塩基の配列、例えばAAAAまたはTTTT）およびタンデムリピート（2つ以上のヌクレオチドの連続リピートパターン）は、より高い複製インジェクションエラー率を経験することが知られている。 Indel複製エラー率は、リピート配列のサイズおよびタイプに依存して、シーケンスエラー率に近づく可能性がある（Vogler et al、2006）。
置換およびindelポリメラーゼエラーは、サイクル数が増加するにつれて直線的に蓄積し、その後、誤った増幅産物がその後のサイクル（PCR複製物）の一次テンプレートになると指数関数的に蓄積し、その時点で変異コールエラーに有意に寄与しうる（Kozarewa et al、 2009）。したがって、PCR増幅を最小にすると、ポリメラーゼ導入エラーが最小限に抑えられる。
ペアエンドのライブラリを作成することで、バリアントコールエラーを減らすこともできる。オーバーラップするペアエンドメソッド（同一分子の順方向および逆方向のリードの部分的/完全な重複）は、ランダム置換エラーを除去するためのフィルターを提供できる（すなわち、両方の鎖で共通するバリアントのみがコールされる）（Schmitt et al、2012; Chen-Harris et al、2013; Colman et al、2015）。
さらに最近の進歩は、鋳型が環状化され、ローリングサークル増幅によってコピーされてシーケンシングされる「circle sequencing」アプローチである。このアプローチは、例外的に低いエラー率をもたらし、一方、比較的高いシーケンシングyieldsを維持する（Lou et al、2013 pubmed）。

シーケンスプロセスに関連したエラー

　シーケンスデータが生成され、リファレンスゲノムまたはデノボアセンブリへのリードのマッピング中、またバリアントコール中に、追加のエラーが生じることがある。

マッピングデータからSNPをコールする時のエラー（マッピングエラー）

マッピングエラーの2つの最も一般的な原因は、ゲノム重複および構造変化である（Alkan et al、2011）。複数の領域に多少多様性のある配列が含まれていると、リード誤ってマップされ、その位置でFPバリアントコールが発生する可能性がある。
リファレンスゲノムの「duplicated」な領域へのマップには、通常アルゴリズムによってフィルタリングされた低いマッピングクオリティスコアが与えられる。ペアのエンド・ライブラリーを使用すれば、ペアエンドリードの片方がユニークにマップされた場合、それをアンカーとして、重複したマッピング・エラーを減らすことができる。
あいまいにマップされリードをフィルタリングすることでマッピングエラーによるFPバリアントコールを軽減できるが、正しくマップされたリードも削除し、FNバリアントコールを引き起こす可能性がある。
リードが正しい位置にマッピングされていても、小さなindelsまたは構造変化を含む領域にマッピングされアライメントがずれるか、または構造変化内部まで拡張されている場合、FPまたはFNのバリアントコールが発生する可能性がある（Subramanian et al、2013）。
研究中の生物についてのマッピング基準（例えば、k-merサイズ、k-mer当たりのあいまいな塩基の数など）を最適化することは、上記のエラーを緩和するのに役立つ。一般に、ゲノムの非常に多様な領域は、多様性の低い領域よりもマッピングおよびアライメントエラーを起こしやすい（Nielsen et al、2011）。

アセンブリからSNPをコールする時のエラー（De novoアセンブリエラー）

バリアントコールにゲノムアセンブリを使用する場合、複数の方法でエラーは導入されうる。例えば各シーケンシングプラットフォームの固有のエラーなど。ショートリードケミストリに固有のエラーの影響を制限する1つのアプローチは、ゲノムアセンブリの前に、Musket（Bian et al、2013）（紹介）やHammer（Medvedev et al、2011）などのショートリードエラーコレクションツールを使用することである。
ゲノムが組み立てられた後、システマティックなエラーはPAGITパイプライン（Swain et al、2012）のようなバイオインフォマティクスツールを用いて補正することができる。最近発表されたPilonパイプライン（Walker et al、2014）（紹介）は、SNPと短いindel両方を修正することができ、正しく連結されたコンティグを同定し修正することもできる。アセンブリエラを低減するこれらのベストプラクティスにより、ダウンストリームSNPアプリケーションへの影響を低減できる。

アセンブリからのバリアントコール

アセンブリエラーがゲノムアセンブリを使用したSNPコールアプリケーションの唯一のエラーというわけではない。例えば、ゲノムアラインメントプロセス全体がエラーを導入する可能性がある。最も一般的に使用される全ゲノムアライメント方法の1つは、ヌクレオチド配列をアライメントさせるnucmerプログラムを含むMUMmer（Delcher et al、2002）である（Kurtz et al、2004）。デフォルトでは、nucmerは誤って結合された配列、またはアセンブリで導入されたキメラ配列（例えば、アダプター配列）によって導入される可能性のあるSNPの大部分をアライメントさせる。これらは、典型的には同定および除去することができるが、分析に多数の誤ったバリアントを導入する可能性がある。
特定のデータセットでnucmerのパラメータを変更することで、これらのアーチファクトによってもたらされるバックグラウンドノイズを軽減できる。
ゲノムアセンブリにおける他の誤ったバリアント発見は、ホモポリマーストレッチの組み込みに原因がある。これは特定のシーケンシングプラットフォームに共通である（Loman et al、2012）。ゲノムアセンブリへのホモポリマーの組込みは、特にindelsの場合には、不正確な変異発生を引き起こす可能性がある。したがって、ホモポリマーで構成されるindelは、直接リードのマッピングで検証する必要がある。
複数の対立遺伝子が混在しているバリアントをコールすると、追加のエラーが発生することがある。アセンブリ時に、塩基の混在部位は、単一のbase callに分解される（*5）。

SNPコール方法のガイドライン

分析要件の定義は評価方法にとって重要である。 SNPおよびindelコールメソッドの精度要件は、アプリケーションによって異なる。

例えば、多数のSNPおよびindelsが利用可能である場合、不正確なSNPおよびindelコールが少数あっても、試料の系統発生推論結果は変わらない可能性がある（Harris et al、2013）。
しかし、変異の総数がより少ない場合、個々のSNPおよびindelは系統学的解釈に大きな影響を与える。例えば、ドイツで2011年の大腸菌 O104：H4の発生を調査するためには、単離株識別に19のSNPしか用いられなかった（Grad et al、2012）。同様に、Bacillus anthracis AmesおよびHaitian Vibrio choleraeのアウトブレイク検査の分離株の分析は比較的少数のSNPに基づいていたため、正確なSNPコールが不可欠だった（Hendriksen et al、2011; Rasko et al、2011）。
いくつかの一般原則がメソッド評価の指針となることがある。第1に、評価に使用されるベンチマークデータセットまたはサンプルは、信頼できる精度で批判的に評価され、研究またはアプリケーションで使用されるサンプルタイプの範囲を代表するものでなければならない（Ellison and Williams、2012）。可能な限り、十分に特徴づけられたゲノムDNA reference materials（RM）またはplasmid standards（利用可能で代表的である場合）からのデータを用いて評価を行うべきである。第2に、アルゴリズム性能を評価するための1つ以上のメトリックが存在しなければならない

ベンチマークに使う材料の選択

適切なサンプル、データセット、およびリファレンスゲノムの選択は、バリアントコール測定プロセスの堅牢な特性評価および評価にとって重要である。

ベンチマークサンプル

十分に特徴づけられたゲノムRMを使用することにより、サンプル処理から変異呼出までの変異呼出し測定プロセスの評価が可能となる。
バリアントコールメソッドを評価するには、同じデータセットを、評価されるさまざまな分析パイプラインのそれぞれで処理する必要がある。
多数のバリアントコーラーが単一のシーケンシングプラットフォームまたはアライナに固有であるため、同じデータセットの使用は問題がある。したがって、他のプラットフォームまたはアライナによって生成されたデータセットを使用してこれらのバリアントコーラーを評価すると、パフォーマンスバイアスが生じる。したがって、完全で適切な比較を実行する唯一の方法は、同じRMを使用して、さまざまなケミストリのシーケンシングプラットフォームからデータを生成し、バリアントコールを行うことである。
多数のゲノムRMは、それぞれのリファレンス配列データと共に入手可能であるか、または開発中である。現在入手可能な微生物ゲノムDNA RMのゲノム配列は、著者の知る限り、まだ厳密に特徴付けられていない。
現在、National Institute of Standards and Technology （NIST）は、全ゲノム微生物およびヒトDNA NIST RMを開発している（Zook et al、20141）（論文執筆時点）。これらの微生物RMは、特性の良いデータを使用してバリアントコールアルゴリズムに挑戦する貴重なリソースを提供する。
微生物全ゲノムRMは食品の安全性および臨床設定との関連性に基づいて選択され、一定の幅のGC含量を持つ。その候補４つはNIST RMs 8375、8376、8377、8378で、Salmonella enterica subsp、enterica serovar Typhimurium LT2（RM8375）、Staphylococcus aureus臨床分離株MRSA株（RM8376）、Pseudomonas aeruginosa臨床分離株（RM8377）、Clostridium sporogenes分離株（RM8378）である。
別のサンプルリソースは、既知のバリアントを含むプラスミドセットがあり得る。プラスミドシーケンシングコントロールの開発は、レアバリアント検出のための実験室RMにとって最良の選択肢である可能性がある。
アリゾナ州フラッグスタッフ(map)にあるTranslational Genomics Research Instituteと北アリゾナ大学は、広く使用されて一般的に利用可能なクローニングベクターであるpUC18プラスミドバックボーンを用いてプラスミドコントロールを開発した。プラスミドのin vivioでのDNA複製は、配列標準を生成するための最高の忠実度の代表となる。
pUC18プラスミドは約2.7Kbpであり、目的のSNPまたはindelを含むDNA断片を容易に挿入または欠失させることができる。異なるSNPまたはindel含有プラスミドを既知の割合で混合することにより、これらの既知混合物のシーケンシングリードを容易に評価することができる。別のグループは、レアバリアント検出の評価を助けるためにプラスミドコントロールを首尾よく使用した（Cushing et al、2013）。
RMとしてのプラスミドのさらなる利点は、サイズが小さいため、他のサンプルと共にインターナルコントロールとしてシーケンシング操作に加えることが可能なことである。次いで、各シークエンシング実行中のプラスミドのエラー率を直接測定することができる。実際、イルミナのシーケンシングランではphiXゲノムを使用するのが一般的になっている。

リアルシーケンスデータ

リアルデータは、バリアントコールアルゴリズムの評価には理想的なソースである。 NIST微生物リファレンスデータのシーケンシングデータは、NCBI sequence read archive（BioProject Accession PRJNA252728）を介して入手可能である。これらのRMのゲノム配列を特徴づけるための努力が進行中であり、バリアントコール方法評価に使用するために公に利用可能となるだろう。十分にcharacterizeされたRMからのシーケンスデータが理想的であるが、これらのデータは常に利用可能であるとは限らず、適切なリファレンスデータが利用可能でない場合、代替データが必要である。

代替ソースの1つは、複数のシーケンシングセンターから複数のシークエンシングプラットフォーム上でシーケンシングされた分離株のシーケンシングデータである。シーケンシングメーカーは、大腸菌K-12 DH10B株とMG1655株を使用して新しいシークエンシングケミストリのベンチマークを行い、このデータをウェブサイトに提供する。
さらに、Broad Institute（米国マサチューセッツ州ケンブリッジ map）、Joint Genome Institute（米国カリフォルニア州ウォルナットクリーク map）、およびJ.Craig Venter Institute（Rockville、MD、USA map）は、クオリティ管理のために大腸菌K-12 MG1655を使用しているが、そのクオリティ管理データの一部が、GenBank Sequence Read Archive（データセットの探索のためのインタラクティブWebアプリケーション2）を介して入手できるようになっている。
Staphylococcus aureus subsp. aureus TW20とBacillus subtilis strain 168では、複数のシーケンシングデータセットも利用できる（GenBank SRAにアーカイブされている）。
注意点だが、同じ株のストックでも培養間に配列変異が存在し得るため、異なるシーケンシングセンターで解析されたデータは注意を要する。RMの主な利点は、バッチ内の材料の均質性を特徴付けるためである。この点において、RMの方が利点がある。すなわち、同じバッチでよく特徴付けられている。
一旦データセットが選択されると、リファレンスデータソースとしてゲノム配列を生成するいくつかのアプローチが存在する。一つのアプローチは、複数のシーケンシングプラットフォーム（Zook et al、2014）からのシーケンシングデータセットを組み合わせることである。
複数のプラットフォームからのデータの統合には、2つの重要な利点がある。まず、データを統合する際に各プラットフォームのバイアスを特定し、ウエイトを下げてデータを統合することができ、異なるシーケンシングプラットフォームのデータでバリアントコーラーをテストできる。
さらに、一部の研究所では、SNPアレイを使用してNGSプラットフォームのSNP候補を確認している（Goya et al、2010; Subramanian et al、2013）。このアプローチは、既に同定され、より容易に特徴づけられたSNPに作用するが、新たに発見されたSNPにはコストがかかる。さらに、目的のバリアントに隣接するSNPまたは低クオリティのマッピング領域（Zook et al、2014）が存在する場合、アレイは機能しない。

シミュレーションシーケンスデータ

シミュレートされたシーケンシングデータセットは、使用可能なリファレンスデータセットがバリアントコールメソッドを適切に表現していない場合、バリアントコールメソッドを検証するために使用できる。メソッド評価のためにシミュレートされたデータを使用することの主な利点は、真のバリアントが知られていることである。さらに、シミュレートされたデータセットをリファレンスデータセットと共に使用して、メソッドのロバスト性をテストすることができる。

多数のシークエンシングリードシミュレータが利用可能だが、シーケンシングデータセットの生成に使用されるエラーモデル（empiricalまたはtheoretical）が異なる。さらに、一部のシミュレータではシーケンシングエラーが発生しないため、このようなエラーがない場合にアルゴリズムのパフォーマンスのベースラインを定義することができる。
empiricalなエラーモデルに基づくシークエンシングリードシミュレータアルゴリズムは、複雑さが異なる。 GenSim 1.0（Engle and Burks、1992）とMAQ（Gallagher and Desjardins、2008）は、シークエンシングリード内のすべてのポジションに対して一定または一定のエラーレートを仮定する。しかし、エラー率はシーケンシングリード末端に向かって増加することが知られている。そのため、position-specific エラーレートを組み込んだより洗練されたエラーモデルも開発されている（Engle and Burks、1994; Richter et al、2008; Holtgrewe、2010; Jia et al、2013）。
多くのシークエンシングリードシミュレータは、シーケンス固有のエラーレートのエラーモデルを使用する、例えばホモポリマーなど（Hu et al、2012; McElroy et al、2012）。このアプローチの利点は、均一または位置特異的なエラーレートを利用するモデルと比べ、真のシーケンシングデータセットにおけるシーケンス特異的なエラーをより詳細にモデル化できることである。さらにクオリティスコアも、シーケンスデータのエラーレートをモデル化するのに使える（Frampton and Houlston、2012; Jia et al、2013）。
GCリッチ領域のカバレッジバイアスや低カバレッジは、いくつかのempiricalなエラーモデルにも組み込まれている（Frampton and Houlston、2012; Hu et al、2012）。
シークエンシングリードシミュレータの中には、ユーザが新しいエラーモデル、を生成することを可能にするアルゴリズムを提供するものがある。例えばGemErr（McElroy et al、2012; Jia et al、2013）など。
シークエンシングリードシミュレータは、シークエンシングのケミストリおよびサンプル調製、ならびに反応検出法に基づいたtheoreticalなエラーモデルを使用することもできる（Myers、1999; Hazelhurst and Bergheim、2003; Richter et al、2008; Angly et al、20123）。theoreticalモデルの利点は、empiricalモデルに含めることが困難なエラーソースを組み込むことができることである。
base callのエラーレートモデリングに加えて、BQSをモデル化することも重要である。しかし、いくつかのシミュレータはクオリティスコアを提供しない。例えば、metaSim（Richter et al、2008）、celsim（Myers、1999）、およびGenSim（Engle and Burks、1992）。固定クオリティ値はGrinder（Angly et al。、2012）で生成される。正しい塩基には30のクオリティスコアがアサインされ、エラー位置には10のクオリティスコアがアサインされる。HuらによるpIRS （2012）は、既存のシーケンシングデータセットのクオリティスコアを使用する。このアプローチは、シーケンシングデータセットのクオリティスコアの分布をよりよく表しているが、これは（シーケンシングプラットフォームによってアサインされた）データセットのクオリティスコアが正確であると想定している。
アサインされたBQSは、モデルの不確実性も反映することができる。たとえば、flowsim（Balzer et al、2010）は、ベイズ定理を使用してシミュレートされたベースコールのクオリティスコアをアサインする。 Huangら（2011）は、反対のアプローチを採用し、クオリティスコアをモデル化し、それらのアサインされたクオリティスコアをベースコールエラーモデルに使用する。
empiricalなアプローチを用いてBQS値をシミュレートすることで、Li ら（2008）は、一次マルコフ連鎖を用いてクオリティスコア分布をモデリングすることによって、position-specificなクオリティスコアモデルを生成した。
シミュレートされたシーケンスデータを使用してSNPコールアルゴリズムを完全に評価するには、シーケンスとクオリティスコアの両方が実際のシーケンスデータを可能な限り正確にシミュレートしている必要がある。
最後に、シミュレーションデータセットを使用する場合は、乱数シード値を定義する必要がある。乱数は、リードのシミュレート時に使用され、シード番号が必要となる。このシード番号は、乱数のセットを生成するために使用される。同じシード番号を再利用すると、同じ乱数セットが生成される。
SNPコールアルゴリズムの評価手順で再現性を有効にするには、同じシード値を使用してシミュレーションを再実行する必要があるが、実験のレプリケートデータセットを生成するには異なるシード番号を使用する必要がある。

リファレンスゲノムの選択

SNPコールのためのリファレンスゲノムの選択は、どのSNPがコールされるかなどのバイアスを生む可能性がある。例えばリファレンスゲノムにない遺伝子のSNPはコールされず、これらの影響は系統樹構築後に観察できる。この潜在的なバイアスは、クローナルなバクテリアではゲノム間の変異が少ないため、効果が少ない（Foster et al、2009; Pearson et al、2009）。
遺伝的に多様なゲノムを扱う場合、複数のリファレンス（Bertels et al、2014）を用いると、アルゴリズムが直面するSNP数やゲノムの複雑さ（リピート領域や構造変異など）の多様性がよりよく反映される。遺伝的に多様な株の正確な系統の再構築には、比較される株とのゲノム類似性の範囲を表す複数のリファレンスゲノムの使用が必要であるが、同じバイアスおよび課題がSNPコールに存在する。事実、SNP発見プロセスの検証中に複数のリファレンスに対してSNPコールを行うことができる（Shen et al、2010; Pightling et al、2014）。
擬似突然変異を有するリファレンスゲノムも使用できる。擬似突然変異を有するゲノムを使用する利点は、実際のシークエンシングリードを使用しながらgrand truthを提供できることである。リファレンス配列の突然変異アルゴリズムでは、置換、挿入および欠失をシミュレートできる。 fakemut、Maq配列マッピングアルゴリズムツールの一部（Gallagher and Desjardins、2008）、GemSimのGemHap（McElroy et al、2012）、およびmutatrix4が含まれる。

パフォーマンス評価

さまざまなパフォーマンスメトリックが他の分野から導き出されたり借用されており、それらにはtrue callとFP / FNのコールレート計算、アルゴリズムのパフォーマンスを単一の値で要約しようとするより洗練された計算が含まれる（表1）。 Recall vs precisionのプロット、ROC（Receiver Operating Characteristic）カーブなどでこれらのメトリックを可視化してグラフィカルに表示することで、さまざまなアルゴリズムのさまざまなパフォーマンスを視覚的に理解できる。しかし、どのメトリックが使用されていても、適用されるアプリケーションまたはコンテキストに基づいて適切に解釈されなければならない。

パフォーマンス評価基準の選択と計算

混同行列（Confusion matrix, wiki）とも呼ばれる分割表（contingency table）がバリアントコールアルゴリズムを評価するために使用されている（論文　図3 link）。2 x 2の分割表は、アルゴリズムによって割り当てられたバリアントラベルと、grand truthセットからのラベルとの関係を示す。 true positive（TP）、true negative（TN）、true negative（FP）、およびfalse negative（FN）の4つの基本値を使用して、アルゴリズム性能を評価する（link）。分割表には、パラメータ値または閾値などを表してもよい。
Accuracy、Specificity、Sensitivity、Precision、False positive の説明は省略。表１及び原文参照。
どのメトリックを使用するかはユーザー次第だが、アルゴリズムを評価する際には、ここで提示されている一般的に使用されているメトリックの一部または全部を含めるべきであると提案する。使用するパフォーマンスメトリックを決定する際には、パフォーマンスメトリックの前提条件と要件を考慮する必要がある（表１）。たとえば、ベンチマークデータセットの正と負のバリアントの割合に依存するメトリクスもあるが、sensitivityとspecificityはこれらの比率とは無関係である。
パフォーマンスメトリックを選択するためのもう1つの考慮点は、コールセットの純度または完全性がより望ましいかどうかである。たとえば、厳密なフィルタリング基準を使用すれば主にTPバリアントコールの上位は特定できるが、これによりセットが不完全になり、バリアントの母集団が誤って表現される可能性がある。Accuracyとprecisionは完全性についての洞察を提供するが、sensitivityとspecificity は完全性を測るものである。
異なるバリアントコールアルゴリズム間のパフォーマンスメトリックを比較するる時は、各メトリックに付いて回る不確実性を考慮する必要がある。パフォーマンスメトリックの不確定性は、ブートストラッププロトコルを使用して定量化することができるかもしれない。
シミュレーションデータセットの場合、繰り返しシミュレーションを行ってパフォーマンスメトリックの不確実性を計算できる。例えば、Zengら（2013年）は、3つの異なるカバレッジ（5X、10X、15X）で10のレプリケーション実験を行い、4つのバリアントコーラーのsensitivity、specificityそしてF-scoreを比較した。その後、各データセットに対して必要なパフォーマンスメトリックを計算し、結果の値を使用してパフォーマンスメトリックの不確実性を計算した。
シミュレーションのレプリケートは、サンプルデータセットまたはリファレンスシーケンスのいずれかに対して生成され得る。サンプルデータセットがレプリケートされる場合、バリアントコールアルゴリズムのパフォーマンスは、特定のバリアント場所および全体的なパフォーマンスについて評価される。しかし、バリアント検出はシーケンスコンテキストに依存する可能性があるため、シミュレートされたバリアント1セットのみを使用すると、そのバリアントコールセットのシーケンスコンテキストにより適したバリアントコールアルゴリズムに有利になる。

バリアントコールを分類し比較するためのリソース

　バリアントコールのパフォーマンスを評価するためのさまざまなツールが開発されている。現在、これらのツールは主にコマンドラインベースであり、ヒトゲノム用に最適化されているが、多くは微生物ゲノムにも適用できる。

bcbio.variation tool（link）は、vcfファイルを正規化し、ベンチマークコールセットと比較し、sensitivity、specificity、ジェノタイピングのエラーレートなどのさまざまなメトリックを生成できる。
SMaSH ベンチマークツールキット（Talwalkar et al、2013）は、マッパーとバリアントコーラーのprecisionとrecall メトリックを生成できる。 SMaSHの新しい側面は、不完全なベンチマークコールセットによるprecisionとrecall の不確実性を計算できることにある。
もう1つのツールvcflib library（link）は、多くの複雑なバリアントを正規化し、ROCカーブを生成し、vcfファイル間で比較を実行できる。
USeq VcfComparator tool（link）はROC カーブを生成し、ベッドファイル内のバリアントのみを比較することができる。
GATKには、variant callとgenotype callを組み合わせて比較するツールもある（McKenna et al、2010; DePristo et al、2011; Van der Auwera et al、2012）。
RTGtoolsのvcfevalツールは、vcfファイルをベンチマークデータセットと比較して、ROCカーブとTP、FP、およびFNバリアントのリストを生成できる。
十分に特徴づけられた一連のバリアントコールがベンチマークに利用できない場合、 latent mixture models（混合モデルwiki）を使用してtrueの割合を予測することができる（Kim and Speed、2013 pubmed; Cantarel et al、2014 pubmed）。 latent mixture modelsは、複数のバリアントコールアルゴリズムからの応答に基づいて基礎データ（真のバリアントコールセット）のモデルを予測する。 latent mixture modelsは真の変異状態を潜在変数または未知変数として扱う。このモデルを使用して、TPおよびTNレートが計算されるFPおよびFNレートを推定することができる。

パフォーマンスメトリックの視覚的な比較

パフォーマンスメトリックをグラフィカルに表示することで、アルゴリズムのパフォーマンスの比較と評価が容易になる。適切なデータ視覚化方法は、関係する変数の離散性または連続性に依存する。バリアントコールアルゴリズムの評価では、アルゴリズムによって生成された一セットのバリアントが離散変数の例を提供し、各バリアントに割り当てられるクオリティバリューが連続変数の例を提供する。
著者らは、2つの異なる方法（AおよびB）を用いて16のレプリケーションデータセットを分析し、結果、32組のバリアントコールを得た。バリアントコールセットを使用して、前のセクションで説明したバリアント呼び出しアルゴリズムとそのパフォーマンスメトリックを視覚的に比較するさまざまな方法を示した（流れの詳細は省略。論文を参照）。
適切なベンチマークバリアントコールセットが利用できない場合、Venn diagrams（ベン図）を使用して異なるメソッドでコールされたバリアントを比較できる。しかし、複数のアルゴリズムによってコールされるバリアントは、必ずしも真のバリアントではないことに注意する。それは、複数のバリアントコーラーが同じバイアスに影響されやすいためである。

Conclusions

　系統解析（phylogenetic analysis）、比較ゲノム解析、またはアウトブレイク調査にバリアント情報を使用する場合、バリアントコールメソッドを適切に評価することが重要になる。多くのエラーの原因は、バリアントコールと同様にシーケンシングに関連している。データ品質の最適化には、シーケンシングライブラリの作成時のPCRを最小限に抑え、ペアエンドシーケンシングを実行し、duplication readsを除去し、indels周辺のリアライメントを行い、base quality scoreの再キャリブレーションを実行することを勧める。

　バリアントコールメソッドの徹底的な評価には、以下のものが含まれる。（1）アルゴリズムが評価するデータの範囲を表す既知の権威あるバリアントコールセットを使用する複数のデータセットの使用。評価に使用されるデータセットは、リアルデータセット、シミュレートデータセット、またはその両方の組み合わせがあり得る。（2）性能指標の信頼区間を計算するために異なるシーケンシングデータセットまたはリファレンスゲノムのレプリケートを使う。（3）アルゴリズム性能を評価するのに役立つ性能評価基準。このようにメソッド評価を実行することにより、ユーザは関心のあるアプリケーションのアルゴリズムのポジティブおよびネガティブを理解し、バリアントコールの信頼水準を特徴付けることができるようになる。

引用
Best practices for evaluating single nucleotide variant calling methods for microbial genomics
Nathan D. Olson, Steven P. Lund, Rebecca E. Colman, Jeffrey T. Foster, Jason W. Sahl, James M. Schupp, Paul Keim, Jayne B. Morrow, Marc L. Salit, Justin M. Zook

Front Genet. 2015; 6: 235. Published online 2015 Jul 7.

参考

ヒトゲノムで評価した論文はいくつもある。

de brujib graphから直接バリアントコールを行う方法論も報告されている。

リファレンスゲノムが不完全だと、欠如した領域に由来するリードが他のセカンドベストマッチの領域にアライメントされ、そこでミスアライメントにより偽のバリアントコールを生じることがままある。簡易的に知るには、リファレンスクロモソームを半分削ってレアバリアントをコールしてみればいい。

例えばGATKのBQSR。大規模な既知SNPデータベースがあればうまくワークする。またはリンク先の提案のようにSNPデータベースを作成する。

http://seqanswers.com/forums/showthread.php?t=19069

アセンブリによりコンセンサスな代表配列として表現されると、レアなバリエーションは分からなくなる。