2018-09-01

review article要約　genome assembly reconciliation toolsの比較

　真核生物ゲノムの大部分は、それらを組み立てるというアルゴリズム上の課題のために未完成である。様々なアセンブリやスキャフォールディングツールが利用できるが、特定のゲノムサイズや複雑さにどのツールやパラメータを使用するかは必ずしも明らかではない。したがって、異なるアセンブラとパラメータを使用して複数のアセンブリを作成し、公開用に最適なアセンブリを選択するのが一般的な方法である。より魅力的なアプローチは、より高品質なコンセンサスアセンブリを作成する目的で、複数のアセンブリをマージすることである。

本文要約

Introduction

　現在市場に出回っているシーケンシングマシンの莫大なスループットにもかかわらず、アセンブリ問題は、大きなゲノムのリピート、不均一なシーケンシングカバレッジ、および（不均一な）シークエンシングエラーおよびキメラリードの存在のために、非常に困難なままである。 Pacific Biosciences [ref.1]やOxford Nanopore [ref.2]のような第3世代シーケンシング技術は、1塩基あたりのコストが非常に高く、シーケンシングエラー率ははるかに高い。

　相当数のde novoゲノムアセンブラが利用可能である。最も適切なアセンブラの選択は、アセンブリされるゲノムのサイズおよび複雑さ（リピート内容、倍数性など）、リード生成に使われるシーケンシングマシンのタイプ（例えば、Sanger、454、Illumina、PacBio 、Nanoporeなど）、ペアエンドまたはロングインサートのメイトペアなどの利用可能性によって変わってくる。
各アセンブラは、ゲノムのリピート、不均一なカバレッジ、シーケンシングエラー、キメラリードに対処するために、わずかに異なるヒューリスティックを実装している。最終的なアセンブリはめったにコンプリートにはならず、典型的な出力は、contigsと呼ばれる順番や向きの揃っていない連続した領域のセットになる。
使用するアセンブラの選択は簡単な作業ではない。Genome Assembly Gold-Standard Evaluation（GAGE）[ref.3]やAssemblathon[ref.4]などのアセンブリコンペティションが開催され、共通データセットを使い複数のアセンブラを評価している。そのような比較評価は一般的なガイドラインを提供することができるが、特定のゲノムおよび特定のデータセットに対して最良のアセンブリを生成するために使用するアセンブラおよびパラメータ設定を決定する体系的な方法はない。
結果として、いくつかの異なるアセンブラおよび/またはパラメータ（例えば、de Bruijnグラフのk-merサイズ）から複数のゲノムアセンブリを生成し、アセンブリ統計に基づいて最良のアセンブリを推測しようとする試みが一般的である。実際、最良のアセンブリの概念は明確に定義されていない。アセンブリエラーのない、ゲノム全体をカバーする完璧なアセンブリを得ることはできないので、コンティグおよびscaffoldの長さを最大化すること（より多くのミスアセンブリを導入する犠牲を払い）が重要かどうかを決定しなければならない。
ドラフトアセンブリの品質評価は、統計的測定およびリファレンスゲノムへのアライメント（利用可能な場合）によって行われる。 N50は、アセンブリの連続性を評価するために広く使用されるメトリックであり、これはコンティグがアセンブリの少なくとも50％をカバーする最短コンティグの長さによって定義される。NG50は、メトリックがアセンブリサイズではなくゲノムサイズに関連する点を除きN50に似ている（wiki）。
アセンブリの正しさは、ミスマッチ、indels、misjoinsなどのアセンブリのエラーを検出することによって測定される。
Misjoinsは、ゲノム内ではるかに離れている座位が不適切にアセンブリに参加している、ミスアセンブリの中で最も望ましくないタイプのエラーである[ref.5]。Misjoinsには、逆位、リアレンジメント、転座がある。
Assembly reconciliationアルゴリズムはコンプリートゲノムを目指し、さらに一歩を踏み出す。Assembly reconciliationツールは、複数のドラフトアセンブリの中から最適なアセンブリを推測しようとするのではなく、魅力的な選択肢を提供する。これらのツールは、2つ以上のドラフトアセンブリをマージして、より高品質のコンセンサスアセンブリを生成することを約束するものである。Assembly reconciliationアルゴリズムの主な目的は、アセンブリの連続性を向上させると同時に、アセンブリエラーの発生を回避することである。
本論文では、異なるクオリティ属性を持ついくつかのコンセンサスアセンブリの品質を測定することにより、Assembly reconciliationツールの最初の包括的評価を実施した。

Assembly reconciliation tools

Assembly reconciliationの概念は、Ziminらによって最初に導入された（pubmed）。その論文では、著者らはもはやメンテナンスされていない（2007年に最後に更新された）RECONCILIATORと呼ばれるAssembly reconciliationツールを導入していた。この論文では、もはや維持されていないAssembly reconciliationツールは評価から除外した。また、GAM_NGSに取って代わり、GAMも除外した。
eRGA ref.[7]、MAIA [ref.8]、RAGOUT [ref.9]、Minimus2 [ref.10]などの他のツールも、これらのツールが異なる問題に対処しているため、比較評価には含まなかった。Reference-guided assembly（eRGA、RAGOUT、およびMAIA）とハイブリッドアセンブリ（Minimus2）は、アセンブリの調整の問題に関連しているが、全く同じではない。前者はターゲットに非常に近縁なリファレンスを使用してゲノムの保存された領域をアセンブルし、デノボアセンブリの非保存部分の複雑さを軽減する。後者のハイブリッドアセンブリでは、ユーザは異なるシーケンシング技術（例えば、イルミナショートリードとPacBioロングリード）からのリードをアセンブリする。
closely related な複数のリファレンスゲノムが利用可能である場合、MAIAはde novoアセンブリをマージする能力も有する。
この論文では、CISA、GAA、GAM_NGS、GARM、Metassembler、MIX、ZORROの7つのassembly reconciliationツールをベンチマークした。論文表1には、7つのassembly reconciliationツールの主な目標と機能をまとめている。これらのアルゴリズムのいくつかは、compression–expansion （CE）統計を使用してアセンブリのcompression（誤った欠失による）またはアセンブリのexpansion（誤った挿入による）を検出する[ref.6]。
CE統計値を得るために、ペアエンドリードは評価されるアセンブリにマッピングされる。 CE統計は、実際にマップされたペアの距離と予想されるインサートサイズを比較することによって計算される。

各ツールの特徴

CISAの目的は、バクテリアのゲノムアセンブリをreconcileすることである[ref.12]。各入力のドラフトアセンブリのコンティグが与えられると、CISAは代表コンティグ（すなわち最も長いコンティグ）を選択し、代表的なコンティグを延長しようとする。またクエリのコンティグを代表拡張コンティグにアライメントしてミスアセンブリを検出する。複数ポジションにアライメントされるコンティグは誤ったアセンブリと考えられ、別の代表的なコンティグが選択される。この過程でアライメントされなかった部分のコンティグは分割される。最後に、得られたコンティグが繰り返しマージされる。[ref.13,14]の論文で３つの異なるアセンブラの出力をマージするために用いられた。
GAAのユーザは、ターゲットアセンブリの品質が高くなると予想されるターゲットアセンブリとクエリアセンブリを指定しなければならない。 GAAの目的は、クエリアセンブリを使用してターゲットアセンブリのギャップを埋めることである。少なくとも2つのターゲットコンティグにアンカーされていないクエリコンティグは無視される。GAAPは、[ref.17]の論文でSOAPdenovoアセンブリをNewblerアセンブリとマージするために用いられ、[ref.18]の論文ではNewblerアセンブリをPCAPアセンブリとマージするために用いられた。[ref,20]の論文ではABySSアセンブリをCLCアセンブリとマージするために用いられた。
GAM_NGSの入力は、各リードのアライメントとアセンブリである[ref.22]。GAM_NGSは最初に、リードの同じセットを共有する両方の入力アセンブリ（ブロック）の最大部分を識別する。 GAM_NGSは、各頂点がコンティグに対応し、（i）それらが異なるアセンブリに属し、（ii）それらが少なくとも1つのブロックを共有する場合、エッジは2つのコンティグを連結する重み付き無向グラフを構築する。このグラフから、GAM_NGSは、両方の入力アセンブリに対するブロックの一貫した順序付けと方向付けを計算する。次に、別の有向グラフ（アセンブリグラフと呼ばれる）を構築し、各頂点はブロックを表し、各エッジは同じコンティグに属する場合に2つのブロックを接続する。アセンブリグラフの競合を解決した後、GAM_NGSは、少なくとも1つのブロックを共有する2つのコンティグ間のセミグローバル整合を計算する。 2つのコンティグの同一性が少なくとも95％である場合、GAM_NGSは最高のCE統計値を持つアセンブリを選択することによってアセンブリをマージする。 GAM_NGSはVelvet-SC、SPAdes、IDBA-UDで作成された3つのアセンブリをマージするために[ref.23]で使用された。 [ref.27]では、NewblerアセンブリをSOAPdenovoアセンブリとマージするために使用された。
GARM [ref,28]はアセンブリを非対称に操作するが、ユーザーはより良いアセンブリーを事前に知る必要はない。このツールは、さまざまなアセンブリ統計に基づいてリファレンスアセンブリを決定する。 GARMは、（nucmer [ref.29]を使用して）オーバーラップを検出するためにアセンブリを互いにアライメントさせ、（ii）互いの（ほぼ）完全に包含されるあいまいなオーバーラップおよびコンティグを除去し、（iii）レイアウトおよびコンセンサスのスコアを生成し、（iv）コンティグをマージし、そして（v）オリジナルのscaffoldsの順序と向きにマージされたコンティグをオーダーする。GARMは[ref.30]でIDb-UDアセンブリとNewblerアセンブリをマージするために使用された。
2つの入力アセンブリのCE統計は、Metassembler [ref.31]（紹介）でも使用されている。まず、Metassemblerはnucmer [ref.29]を使用して2つの入力アセンブリをアライメントする。これらの境界線はブレークポイントと呼ばれる。ブレークポイント間の各領域に対して、CE統計に基づいて2つのアセンブリの1つが選択される。 Metassemblerを使用すると、ユーザーは3つ以上のアセンブリを入力できるが、progressive pairwise の方式でマージされる。 [ref.32]では、Metassemblerを使用して、ALLPATHS-LGアセンブリをIllumina Moleculo [ref.33]合成ロングリードに基づくアセンブリとマージした。
MIX [ref.5]（紹介）は、入力グラフ内のコンティグ間のprefix–suffix 重複を表現するために様々なウエイトを付けられた拡張グラフと呼ばれる有向グラフを使用する。 MIXはコンティグをマージするために、拡張グラフ上の重複しない最大の独立した最長パスセットを決定する。いずれの経路にも含まれていないコンティグは重複について検査される。含まれているかほぼ含まれているコンティグは削除され、残りはアセンブリに追加される。 MIXはエラー訂正を実行せず、むしろ連続性を高めることに焦点を合わせている。 MIXは[ref.34]と[ref.35]で2つのアセンブリをマージし、[ref.36]で3つのアセンブリをマージするために使用された。
ZORRO [ref.37]は、k-mer統計を用いて反復領域を同定し、マスキングすることから始まる。繰り返し領域がマスクされると、Minimus [ref.10]を使用して2つのアセンブリ間のオーバーラップが検出される。それから繰り返し領域のマスクを解除し、重複するコンティグをマージする。最後に、ZORROはBambus [ref.38]を使用してペアエンドを使いコンティグを順序付けと方向付けを行う。 ZORROは[ref.39]と[ref.40]で2つのアセンブリをマージするために使用された。

Assembly reconciliationツールが大規模で複雑な（真核生物の）ゲノムに特に有益であることを期待する一方、Assembly reconciliationツールは多くのバクテリアゲノムのアセンブリプロジェクトで活用されている。

結果

　上記の7つのアセンブリ調整ツールの比較評価を行うために、著者らはGAGE用に作成された公的に入手可能なアセンブリを使用した[ref.3]。また構造変化を含むSaccharomyces cerevisiae S288c [37]の合成アセンブリを作成した。GAGEアセンブリを選択した動機は、このデータセットがAssembly reconciliationツールで最も一般的に使用されていたことである。 GAM_NGSの著者は実験結果にこのデータセットを使用し、CISAはS. aureusとR. sphaeroidesのアセンブリでテストされ、MIXはS. aureusとR. sphaeroidesのアセンブリを含むGAGE_B [ref.41]のデータを使用している。他のAssembly reconciliationツールはAssemblathonデータセット[ref.4]を使用している。たとえば、MetassemblerはAssemblathon 1とAssemblathon 2の両方のデータセットを使用している。

すべてのAssembly reconciliationツールはデフォルトのパラメータで実行され、Quast [ref.42]は広範なアセンブリ統計の収集に使用された（詳細は論文のメソッド参照）。すべての統計に関する完全なレポートは、追加ファイル1: 表S1-S19に報告されている。本文では連続性/正確性のトレードオフの結果のグラフのみをまとめる。
入力アセンブリおよび出力アセンブリは、x座標が連続性（NGA50）を表し、y座標がミスアセンンブリの数である散布図上の点として表される。図1はプロットの解釈方法を示している。Assembly reconciliationツールは、入力点をプロットの右下隅に向かって「移動」させる、すなわち、連続性を高め、アセンブリ誤差の数を減らすことが期待される（図1に例 link）。

すべてのアセンブリのペアで各アセンブリのreconciliationツールを実行すると数百のアセンブリが生成され、一般的な結論を導き出すことは困難になる。代わりに、6つの異なる基準に基づいて入力アセンブリのペアを選択し、選択したペアの結果を比較することにした。プレゼンテーションを合理化するため、正常に実行されなかったツールについてはコメントしない。これらのツールの実行に関連するその他の制限事項は、「論文の追加ファイル1：注6」に記載されている。最後に、対応するアセンブリに加えて、raw シーケンシングリードを利用できるツールもある（「論文の追加ファイル1：注7」を参照）。

（結果はより簡潔に、影響の大きい結果についてだけまとめる）

連続性の高い配列と精度の高い配列のマージ（GAGEより）

　最初の一連の実験の目的は、contiguity（以後、連続性）と精度の間のトレードオフを探すことだった。具体的には、最初の入力アセンブリが連続性に優れ、２番目のアセンブリが精度に優れる場合、1番目の入力アセンブリの連続性と2番目の入力アセンブリの正確さでマージするreconciliationツールの能力をテストしたかった。マージされる2つの入力アセンブリは、片方は高いN50値（ただし、誤ったアセンブリエラーを持つ可能性が高い）と誤ったアセンブリが少ない（おそらくN50が低い）からなるように選択された。

いずれのassembly reconciliationツールもABySSアセンブリに比べてアセンブリエラーを改善できなかった。
CISAはミスアセンブリの数が最も少なかった。
入力アセンブリがcontigではなくscaffoldsで構成されている場合（図2の下段）、すべてのassembly reconciliationツールは連続性をわずかに改善した（5％未満）。
予想通り、マスターアセンブリに依存するツールは、入力をランク付けしなかったツールよりも誤ったアセンブリ数が少なかった。

入力アセンブリの並べ替え（GAGEより）

入力の順番による影響。（省略）

ハイクオリティな入力（GAGEより）

　3番目の実験では、2つの高品質アセンブリを結合するassembly reconciliationツールの機能をテストした。 2つのハイクオリティアセンブリ（すなわち、少数のコンティグ / scaffoldsおよび高いN50と、よりミスアセンブリ数が少ない、の２つを選択した。ALLPATHS-LGを最初の入力とし、MSR-CA、SOAPdenovo、CABOGのいずれかを2番目の入力としてマージした。

Table S7より（link）

S. aureus

S. aureusではcontigを入力とするとGAM_NGSがベストで、ミスアセンブリなく連続性を66％改善させた。２番目に最良のアセンブリは107％の連続性増加を伴うMetassemblerによるものだったが、ALLPATHS-LGと比較してミスアセンブリ数はわずかに増加した。 MIXは多数のミスアセンブリを生成したが（MSR-CAより高い）、連続性を4％向上させた。 CISAは連続性を11％改善したが、ALLPATHS-LGよりも多くのエラーを生成した。 ZORROは連続性を30％低下させた。
Scaffoldsを入力とした場合、そもそもALLPATHS-LGはミスアセンブリがなく、NGA50もMSR-CAより高かった。asymmetricなツールとsymmetricなツールがあるが、傾向として、asymmetricなツールはよりミスアセンブリが少なく、N50を減少させた。 ZORROは非対称であるが、連続性は90％以上減少した。
GARMは、MSR-CAに近い多数のミスアセンブリを生じたが、連続性を最も高めた（108％）。 MIXはミスアセンブリを導入しなかったが、ゲノム配列の25％しかカバーしなかった。
GAM_NGSとMetassemblerは連続性を66.5％改善し、ミスアセンブリを導入しなかった。これらはアセンブリの驚異的な改善が見られた2つのまれな例である。

R. sphaeroides

MetassemblerだけがNGA50を大幅に増やした。他のすべてのツールは、連続性を減少させた。正確さに関しては、ZORROとCISA（Scaffoldsを入力として使用）はミスアセンブリ数を減らしたが、連続性もそれぞれ99％と60％低下させた。
GARMは、連続性を38％改善し、CISAは2％未満向上させた。ミスアセンブリ数を減らした唯一のツールはMIXだったが、そのアセンブリでもゲノムの約半分しかカバーしていなかった。
いずれのツールも、連続性とミスアセンブリの両方は改善しなかった。

Hg_chr14

GAAはNGA50を76％改善したが、入力のミスアセンブリ合計に等しい数のミスアセンブリを生成した。 GAM_NGSは隣接性を改善し（NGA50は28％の増加）、ミスアセンブリ数をわずかに減らした。
Scaffoldsをを入力として使用すると、GAM_NGSとMetassemblerはALLPATHS-LGと同様の品質統計を維持した。 GARMはNGA50を9％減少させた。また、ミスアッセンブリの数も増加した。

高度に断片化された入力（GAGEより）

　この一連の実験の目的は、2つの高度に断片化された入力アセンブリが提供されている場合、アセンブリ調整ツールのパフォーマンスを評価することだった。入力アセンブリは、200bpsより短いコンティグ、多いコンティグ数と低いN50を有するように選択された。（結果省略）

De Bruijn対 string graph アセンブリ（GAGEより）

　異なるアセンブリ方法を使用して生成されたアセンブリをマージする効果をテストした。ALLPATHS-LG（de Bruijn graphに基づく）によって生成されたアセンブリを、SGAによって生成されたアセンブリ（string graphに基づく）とマージした結果を示す。全体として、GAM_NGS、Metassembler、およびMIXはALLPATHS-LGと同様のアセンブリ統計を維持した。

Hg_chr14のコンティグを入力の場合、GAM_NGSはNGA50を2％増加させた。GAM_NGSとMetassemblerはALLPATHS-LGに近いミスアセンブリと連続性を維持した。 GARMは、misassembliesの数をALLPATHS-LGの455から496に増やし、NGA50を9％減少させた。

複数入力（GAGEより）

　3つ以上のアセンブリをマージするツールの能力をテストした。アセンブリ調整ツールが2つ以上のアセンブリを入力として許可しなかった場合、それらを反復的にマージした。たとえば、3つのアセンブリをマージする時は、最初に2つのアセンブリをマージし、その結果を3番目のアセンブリとマージした。 Metassemblerは、同様の戦略を使用している。ユーザーが複数のアセンブリを提供する場合、ツールは反復的にペアワイズ調整を実行する。 [ref.51]で提案されたアセンブリ品質メトリックであるフィーチャレスポンスカーブ（FRカーブ）に基づいて、入力アセンブリの順番を決めた。 FRカーブは、τの特徴を含まないコンティグと対応するゲノムカバレッジとの間の依存性を表す。 x軸はτを表し、y軸はゲノムカバレッジを表す。カーブが急であればあるほど、アセンブリは良好である。 [ref,22]のFRカーブを使用して、GAGEアセンブリのマージ順序を決定し、最高品質のアセンブリから始めた。

S. aureusとR. sphaeroidesについては、CISAは一般に、マージしたアセンブリ数が増加するにつれて連続性を改善した。繰り返しによりエラー数は変動した。GAM_NGSの連続性も繰り返しマージで改善されたが、ミスアセンブリ数は減少しなかった。
Metassemblerの連続性は、S. aureusについては繰り返しマージで改善されたが、ミスアセンブリ数も増加した。
MIXはほとんどの繰り返しでミス・アセンブリはで少数を維持したが、NGA50は比較的貧弱だった。

合成アセンブリ

　この一連の実験では、特定の構造変異（詳細については方法を参照）を埋め込んだSaccharomyces cerevisiaeの合成アセンブリのアセンブリ調整ツールをテストした。 Decipher [ref.54]は、gradientsとして表示されるシンテシープロット生成に使用した。参照とクエリが一致しない場合、gradientsのカラーは中断される（Fig.6）。灰色の領域は、参照と一致しないブロックを示す。各実験では、（1）酵母ゲノムの4番染色体と15番染色体の2つのマージ、（2）1のバージョンにRSVSimによって生成された1つの構造変異、すなわち欠失、逆位、転座を加えたもの。様々なサイズ（50,100,200および500kbp）の欠失および逆位を第4染色体に導入し、第4染色体から第15染色体へ様々なサイズ（再び50,100,200および500kbp）の転座を生成した。

図6（一番上の行）は、CISAが欠失を解決したが、第15染色体を出力しなかったことを示している。GARMは染色体4を出力しなかった。GAM_NGS、Metassembler、およびMIXは、欠陥のある入力アセンブリを生成した。ZORROは、欠失の位置でアセンブリを壊し、3つの個々のコンティグを生成し、欠失した配列を省略した。
図6（中段）は、CISAのみが逆位を解決したが、第15染色体は出力しなかったことを示している。GAAは逆位を修正しなかった。再びGAM_NGS、Metassembler、MIXは欠陥のある入力アセンブリを生成した。 ZORROは、4番染色体の3つのコンティグと、15番染色体を表すコンティグを追加して逆位を起こした。
図6（一番下の行）に示すように、転座ツールの動作は転座のサイズに依存していた。 50,100、および200kbpの転座について、CISA、GAA、およびGAM_NGSは、第4染色体の正しいバージョンを産生した。 GARMはマージされたアセンブリを生成した。 MetassemblerとMIXの出力は、欠陥のある入力アセンブリのようだった。 ZORROはアセンブリを構造変化の点で分割する。 200および500 kbpの場合、350 GBを超えるRAMを割り当てた後、ZORROを停止した。いずれのツールも500kbpの転座を修正することはできなかった。

討論と結論

　デノボアセンブリの実際的な課題を考えると、アセンブリの調整のアイデアは非常に魅力的である。さまざまなアセンブリツールおよび/またはパラメータを使用して、同じデータセット上に複数のアセンブリを生成し、次にassembly reconciliation ツールを使用してすべてのアセンブリをマージし、高品質のコンセンサスアセンブリを得ることができる。
統合されたアセンブリの品質は、少なくとも入力における最適なアセンブリの品質と同じである必要がある。事実、両方の入力アセンブリが良好な品質のアセンブリ統計値を有する場合（例えば、一方がより連続し、他方がよりエラーが少ない場合）、コンセンサスアセンブリは両方の入力から良い面を継承することが期待される。
現実には、両方の入力アセンブリよりも一貫して優れている（または少なくとも少なくとも優れている）アセンブリを作成することは非常に難しい。この原稿で報告された一連の実験では、著者らが評価したツールのどれもがこの目標を一貫して達成することができなかった。出力が両方の入力より優れているケースは非常に少なかった。
これらのアセンブリツールが一般的なアセンブリの調整問題を解決できなかったが、各ツールはアルゴリズムの進歩をもたらす可能性のあるいくつかの長所を示した。
例えば、CISAは一般的に、ほとんどの構造的なバリエーションを修正し、入力アセンブリの重複を無視できた（ただしマージしたアセンブリの数が増えるにつれてduplicationの割合が増加した）。
GAAとGARMは、しばしば連続性を改善した（しかし、しばしばアセンブリエラーをもたらしduplicationの割合を増加した）。
GAM_NGSは、通常、参照の質に非常に近いコンセンサスアセンブリを作成したが（それほど良くはない）、転座を解決することができた。
MIXは連続性を適度に改善したが（しかしアセンブリエラー数は、最もエラーの多い入力に近いかそれ以上だった。場合によってはゲノムカバー率が低下した）
Metassemblerは、しばしばミスあアセンブリが非常に少なく、両方の入力のアセンブリよりミスアセンブリが少ない場合もあった（しかし、N50は増加しなかった）。
最後に、ZORROは一般的に高いゲノムカバー率を維持した（しかし、それは連続性を有意に増加させなかった）。