アセンブリ結果を評価する CGAL - macでインフォマティクス

　ゲノムアセンブリは、元のゲノムを再構成するために、ショットガン配列決定によって産生されたDNA配列の断片を合併するプロセスである。アセンブルの問題は、多数の式からNP困難であることが知られており[論文より ref.1〜3]、またシーケンシングエラー、実験バイアス、および処理されなければならないデータ量の多くのタイプによってより複雑になる。これらの理由から、基礎的な理論とアルゴリズムの違いに加えて、一般的なアセンブリ方法は、多くの異なるヒューリスティックを使用しており、既存の方法によって生成されたアセンブリは、実質的にかなり異なってしまっている[ref.4,5]。

　Velvet [ref.9]、Euler-sr [ref.10]、ABySS [ref.11]、Edena [ref.12]、SSAKE [ref.13]、VCAKE [ref.12]、SHARCGS [15]、ALLPATHS [ref.16]、SOAPdenovo [ref.17]、Celera WGA [18]、 the CLC bio assemblerやその他 [ref.4,5]などの多くのアセンブラが開発されているが、これによって発生した重要な問題は、どのアセンブラが「最高」であるかを判断することである。シミュレーションの研究では、単純なmetrics はアセンブリの品質と相関していることが示されているが、現在使用されているメトリックはcrudeであり、結果の要約のみを提供している。したがって、この評価は非常に誤解を招く可能性がある[ref.5,19]。例えば、すべてのリードをend-to-endで単純に結合するアセンブリは、非常に大きなN50を有するが、明らかに貧弱なアセンブリである。 Phillippy et alは誤ったアセンブリと疑わしい領域を識別するamosvalidate [ref.20]と呼ばれるソフトウェアを発表した。しかし、それは高い特異性を有さず、広く採用されていない。 Narzisi et alは amosvalidateによって識別されたフィーチャに基づいてアセンブリをランク付けするためのフィーチャ - レスポンス曲線[ref.21]を使用した。 [ref.22-25]のような研究では、これらの問題が議論され、アセンブラのパフォーマンスについての興味深い洞察が得られたが、アセンブル品質の本質的な直接的な尺度は提供されていない。Assemblathon 1コンペティションでは、N50だけでなく、より多くの情報を明らかにするために10種類のメトリックを使用していたが、ほとんどのメトリクスは、アセンブルしているゲノムが分かっている場合にしか計算できないため、リアルデータには有用ではない。

　本論文では、アセンブリの可能性を計算するための計算上効率的なアプローチを提示している。直感的には、尤度評価は、リードの誤差、インサートサイズ分布、および未構成データの程度を考慮して、アセンブリのカバレッジの均一性を評価する。尤度を最大化することによるゲノムアセンブリは、以前にMyers [ref.26]およびMedvedev and Brudno [ref.1]によって提案されてきたが、それらの処方は、重要なパラメータであるシーケンスエラーを考えないシンプルなモデルに基づいている。アセンブリ品質評価を行うため、著者らはCGALと呼ばれるプログラムメソッドを実装した。このツールを使用して尤度を計算し、N50コンティグ値、参照ゲノムとの配列類似性、およびamosvalidateによって報告された値などの標準的な尺度と尤度計算を比較する。すべてのアセンブラを比較してすべてのパラメータを調べることは、このペーパーの範囲を超えているが、結果は、アセンブリを評価するために尤度を使うことは意味があることを示している。

公式ページ

https://pachterlab.github.io/cgal/

インストール

マニュアルがないが、Makefileがあるのでそのままmakeする。

tar -xvf cgal-0.9.6-beta.tar
cd cgal-0.9.6-beta
make

> ./cgal

r$ ./cgal

cgal v0.9.5-beta

----------------

cgal - computes likelihood

Usage:

cgal [options] <contigfile.sam>

Required arguments:

<contigfile.sam> Assembly file in FASTA format

Options:

-h [--help] Prints this message

Output:

(In file out.txt) <numberContigs> <totalLikelihood> <mappedLikelihood> <unmappedLikelihood> <noReads> <noReadsUnmapped>

<numberContigs> Number of contigs

<totalLikelihood> Total log likelihood value

<mappedLikelihood> Likelihood value of reads mapped by the mapping tool

<unmappedLikelihood> Likelihood value corresponding to reads not mapped by alignment tool

<noReads> Total number of paired-end reads

<noReadsUnmapped> Number of reads not mapped by the alignment tool

ラン

作成中

引用

CGAL: computing genome assembly likelihoods.

Rahman A, Pachter L.

Genome Biol. 2013 Jan 29;14(1):R8.