完全性、正確性、連続性を考量してゲノムアセンブリを評価する PDR

　既存のゲノムアセンブリ評価指標は、ゲノムアセンブリの品質の特定の側面についての限られた知見しか提供しておらず、時にはお互いに意見が合わないこともある。アセンブリ間の統合的な比較をより良くするために、著者らはここで新しいゲノムアセンブリ評価指標PDRを提案する。この評価指標は、遺伝学研究における共通の関心事に由来しており、完全性、連続性、正確性を考慮に入れている。また、PDRの計算を高速化するための近似実装を提案する。
　公開されているデータセットに対する評価結果は、ゲノムアセンブリの品質を統合的に評価するPDRの能力を肯定している。実際、このことはその定義によって保証されている。また、近似によって生じる誤差は極めて小さく、無視できる程度であることが示された。

1.1 Continuity

　ゲノムアセンブリー評価のための標準的な指標は原則として存在しない。それにもかかわらず、いくつかのメトリックは、そのような仕事のほとんどすべてで共通して使用されている。典型的な例はN50であり、これは、アセンブリの少なくとも50％の長さが、それと等しいかそれよりも長いscaffolds（またはコンティグ）によって寄与されている長さとして定義されている。この統計量は、広く使われているだけでなく、批判もされている。初期のチャレンジでは、サイズの異なるアセンブリ、特にこれらのアセンブリが同一のサンプルから得られた場合には、比較が不公平になる可能性があると主張があった。そこで提案されたのがNG50で、これはアセンブリサイズを推定ゲノムサイズに置き換えることを除いてはN50と似ている(Earl et al., 2011)。しかし、NG50であっても、場合によっては誤解を招く可能性がある。論文図1は、青のアセンブリが赤のアセンブリよりも全体的に優れているが、NG50とN50が低い例を示している。QUAST（Gurevichら、2013）は、50%の支配を避けるためにNGx（Nx）プロットを提供することによって、この問題に対処した。
　しかし、このプロットは、NG50における別の問題を解決することができない：より大きなコンティグをもたらし、したがってNG50を膨らませるミスアセンブリ（a.k.a misjoinまたは構造的エラー）。これを解決するために、リファレンスゲノムが利用可能な場合、多くのベンチマークや評価ツールでは、NG50のカウントにおいてコンティグ長を置き換えるためにアライメントブロック長を使用していた。これらの指標には、コンティグパスNG50（Earlら、2011）、補正Nx（Salzbergら、2012）、正規化N50（Mäkinenら、2012）、およびNGA50（Gurevichら、2013）がある。これらは定義と実装が若干異なるが、原理は同じである：誤ったコンティグを誤ってアセンブリされた点で切断することである。この一連のメトリクスは、通常、連続性の評価に使用される。
　これら以外にも、限られた研究でしか使用されていないにもかかわらず、いくつかのコンティギュイティ指標がある。例えば、E-sizeはGAGEで提案されたもので、ランダムな位置に位置するコンティグの長さの期待値として定義されている。N50と同様に、この指標はコンティグ長の分布を反映しているに過ぎず、ミスアセンブリによって上昇する可能性がある。リファレンスゲノムを用いて、別のメトリックU50（CastroおよびNg、2017）は、N50メトリックに固有のいくつかの制限を回避することを目的として、重複する配列を除去することによって、ユニークで標的特異的なコンティグを同定した。アセンブラソン（Earlら、2011；Bradnamら、2013）では、CC50は明確な考えとして定義された。染色体内の位置のペアは、正しい順序と同じコンティグで識別されていれば、正しく連続している（CC）と言える。CCペアの割合は分離距離とともに減少する。CC50は、この長さで区切られた50%のペアがCCになる長さである。計算に時間がかかるため、サンプリングベースの方法でしか推定できまなかった。

1.2 Completeness
　完全性はゲノムアセンブリの評価におけるもう一つの次元である。いくつかのベンチマークでは、連続性のみが評価され、完全性はその一部として考慮されていた。実際には、完全性はアセンブリによって引き起こされる損失に焦点を当てているのに対し、連続性は局所的なコンテキストの再構築を反映している。完全性の普遍的なメトリックは、アライメントカバレッジである。これは非常にわかりやすい指標だが、時として識別力が低いことがある。リファレンスゲノムが利用できない場合、完全性はCEGMA（Parraら、2007）およびBUSCO（Simãoら、2015）によって評価することができる。これらは、保存されたシングルコピーオルソログのセットを収集し、アセンブリがそれらを含むかどうかをテストする。言い換えれば、これらが反映しているのは遺伝子空間の完全性であり、アセンブルされたゲノムの正確な完全性ではない。つまり、これらは実際にはサンプリングテストである。
1.3 Correctness
　ゲノムアセンブリの評価におけるもう一つの側面は、正しさである。一般的に使用されているメトリクスは、連続性のメトリクスよりもわかりやすく、時間の経過とともに改善されることはあまりない。これらのメトリクスには、通常、１塩基エラー（ミスマッチ）、indel、ミスアセンブリが含まれる。ミスアセンブルは最も有害なタイプとみなされ、正しさを評価するためのメトリクスで広く使われている。このタイプをより良くプロファイルするために、QUASTではさらに以下のように分類されている。(a) relocation、すなわち、隣接する配列が同じ染色体に配置されているが互いに離れている位置にある、(b)逆位、すなわち、隣接する配列が同じ染色体に配列しているが反対側のストランドに配置されている、(c)転座、すなわち、隣接する配列が異なる染色体に配置されている、に分類される。これらは正確性を評価するには十分だが、デノボアセンブリでは通常利用できないリファレンスゲノムが必要となるため、利用には制限がある。さらに、これらのカウントは、アセンブリの数に依存しているため、アセンブリの大きさや効果を反映していない。そこで、REAPR（Huntら、2013）およびLAP（Ghodsiら、2013）は、リファレンスゲノムが存在しない場合に、アセンブリとサンプルのシーケンシングリードとの間の整合性を確認することによってアセンブリを評価するために提案された。REAPRは、長いインサートサイズ（1000bp以上）のペアエンドリードをマッピングしたものを必要とし、そのペアリングとマッピング情報を評価エビデンスとして利用した。そのため、REAPRの性能はリードの品質やインサートサイズに左右される。LAPでは、品質をアセンブルされた配列のリードを観察する条件付き確率と定義している。しかし、それは同じリードセットに由来するアセンブリを比較する場合にのみ適用される。REAPRやLAPと同様に、FRCurve (Narzisi and Mishra, 2011)は、ミスアセンブリの特徴を検出するためにリードのレイアウト情報を利用する。そして、それは、ミスアセンブリ特徴数（X軸）の与えられた数内のコンティグの最大総長（Y軸）を示す特徴-応答曲線をプロットする。実際、FRCurveは正しさだけでなく、コンティグ性も評価する。定量的なメトリックを与えるために、プロットは、補正されたN50を計算するために使用される。NGA50とは異なり、補正されたN50はN50の欠点を完全に回避しているわけではない。大きなコンティグの中にいくつかのミスアセンブリがあっても、補正後のN50は大きく膨らむ可能性がある。FRCurveのもう一つの問題点は、すべてのエラー特徴（アライメントブレークポイント、low depth、異常なリード方向など）が、下流の解析での影響に関係なく等しく重み付けされていることである。
1.4 Need for an overall metric
　連続性と正しさの間にはトレードオフがある。具体的には、アグレッシブなアセンブリの中には、正確性を犠牲にしても連続性に優れているものもあれば、エラーが少なくコンティグが短いものもある。ダイバージェンスは、ほとんどの場合、繰り返し領域でコンティグが伸びている間に発生する。リピート領域が長すぎて1回のリードではカバーできない場合、アセンブラはコンティグを拡張するために複数の選択肢を持っているが、どれが正しい選択肢なのかはわからない。保守的なアセンブラは、決定を下すのに十分な証拠がない場合に伸長を停止し、結果として断片化したアセンブラリを生成する。対照的に、アグレッシブなアセンブラは、ミスアセンブルのリスクを冒しながらも、微妙な手がかりを得て、シーケンスを拡張し続ける。異なるアセンブラは、拡張を継続するかどうかを判断するための独自の戦略を持っており、継続する場合はどちらの選択が良いかを判断する。
　ベンチマークや評価ツールでは、通常、アセンブリの多次元的な比較やグローバルなプロファイルを提供するために、連続性、完全性、正しさ(C3)のそれぞれをいくつかのメトリクスで調査している。しかし、Haiminenら(2011)が批判しているように、異なるアセンブリメトリクスの表が提供されると、各メトリクスが独自のフロントランナーを持っているため、アセンブリ間の比較が複雑化する。このような過度に詳細な情報は、実際のexperienceの指針にはならない。どのアセンブリが全体的に優れているかを判断するのはまだ難しい。これに対処するためには、連続性、完全性、正確性の3つの側面をすべて統合した総合的なメトリックまたはスコアが望ましい。そこで、このギャップを埋めるために、ゲノムアセンブリの評価のための新しい指標を提案する。（以下略）

論文の式（8）の近似がPDR（論文参照）

インストール

ubuntu18.04LTSでテストした。

依存

PDRi only needs Java(1.8 or above)

ここではJDK1.8を導入

apt update && apt install openjdk-8-jdk

GIthub

リリースからPDRi.jarをダウンロードする。

> java -jar PDRi.jar

$ java -jar PDRi.jar

Usage: pdmega [OPTIONS] REFERENCE ASSEMBLY

Options:

--threads INT Threads to use [default: CPU core]

-k INT Block size [default: 1000]

-d PATH Temporary folder for intermediate files [default: PDRTmp]

-a TEXT Executable path of aligner (BWA or minimap2) [default: bwa]

-e INT Maximum offset for two alignment segment to be jointed

[default: 0]

-m INT Minimum chromosome length (in bp) to summarize and report

alignment statistics. This doesn't change PDR result.

[default: 1% genome]

-h, --help Show this message and exit

Arguments:

REFERENCE Reference genome

ASSEMBLY Assembly to evaluate

実行方法

リファレンスゲノムとアセンブリ配列を指定する。

java -jar PDRi.jar reference_geonme.fasta input_assembly.fasta

出力

====== Finished ======

Genome payload: 3954589.0

PDR Total: 4924756.2547394745

PDR Ratio: 3.1490679542361645E-7

引用

PDR: a new genome assembly evaluation metric based on genetics concerns
Luyu Xie, Limsoon Wong

Bioinformatics, Published: 06 August 2020

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

完全性、正確性、連続性を考量してゲノムアセンブリを評価する PDR