macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アセンブリ結果を評価する dnAQET

 

 次世代シーケンス(NGS)テクノロジーの導入により、大量のゲノムシーケンスデータを生成できるようになった。これにより、個人のゲノムをシーケンシングしてde novoアセンブリすることが可能になった。約10年前、NGSテクノロジーにより、二倍体de novoゲノムアセンブリの比較的高いカバレッジと生成で、ジェームズD.ワトソンとクレイグベンターの2人のゲノムのシーケンスが可能になった[ref.2、3]。これに続いて、アジアの個々のゲノム(YH)、韓国の個人(AK1)、およびサンプルNA18507の2倍体de novoゲノムアセンブリが報告され、以前に利用可能な個々のゲノムと比較された[ref.4、5、6]。さらに最近では、7人の二倍体DNA配列がアセンブリされ、アセンブリ用に開発されたソフトウェアパイプラインとともに報告された[ref.7]。シーケンスがより安価で手頃な価格になったが、精密医療の時代にNGSを日常的に適用するという課題は、特に近い将来の個人のゲノムアセンブリバイオインフォマティクスソリューションに大きくかかっている。この目的のために、ショートリードおよびロングリードのNGSデータを使用したde novoアセンブリに関するさまざまなアセンブリツールが文献で提案および報告されている。そのようなツールの例としては、SOAPDenovo2 [ref.8]、ALLPATHS-LG [ref.9]、ABySS [ref.10]、MaSuRCA [ref.11]、およびSPAdes [ref.12]があり、これらはショートリードデータとロングレンジのメイトペアライブラリを使う。Canu[ref.13]、MECAT [ref.14]、Celera [ref.15]、およびFalcon [ref.16]は、Oxford NanoporeやPacBioなどのプラットフォームで生成されたロングリードデータを利用して、de novoアセンブリを生成する。これらのアセンブリツールで使用されるアプローチは異なるため、scaffoldsまたはcontigs(連続シーケンス)およびそれらによって生成されるアセンブリの品質も大きく異なる。これらのアセンブリソフトウェアを比較する問題に対処するために、Assemblathonコンソーシアムは、シミュレート(人工)データ[ref.17]および非哺乳類脊椎動物種[ref.18]のデータに対する複数のアセンブラのパフォーマンスを評価するエフォートを行った。ゲノムアセンブリの最適なソリューションとして選ばれたパッケージはなかったが、これらの2つの研究は、アセンブリの全体的な品質の重要な測定値を確立した。別の研究[ref.19]では、著者らは、ヒト14番染色体と小さなゲノムを持つ他の3つの生物について、複数のアセンブリツールによって生成されたde novoアセンブリを比較した。これらの作業により、複数の観点からアセンブリの品質を測定するための、受け入れられているいくつかのメトリックの基礎が確立された。

 これらのメトリクスを使用して、新しくアセンブリされたゲノムの品質を評価するためのいくつかのツールが文献で報告されている。REAPR [ref.20]は、アセンブリに使用されたリードをアセンブルされたコンティグにバックアラインメントする手法により品質メトリックを生成する、リファレンス不要のツールである。一方、QUAST [ref.21]とその改良版QUAST-LG [ref.22]は、信頼できるリファレンスゲノムの存在下でde novoゲノムアセンブリを評価できるツールである。これらのツールは、de novoアセンブリのコンティグまたはスキャフォールドを特定のリファレンスゲノムの染色体にアラインメントし、これらのアラインメントに基づいて品質メトリックを報告する。また、N50値などのリファレンスフリーのメトリックもレポートするが、これらのツールの主な目的は、リファレンスゲノムを使用して、ゲノムのカバレッジ率、コンティグ中のミスアセンブリの数など、リファレンスに依存するメトリックを生成することである。主な欠点は、個々のコンティグの品質が完全に評価されておらず、de novoゲノムアセンブリの全体的な品質を反映できる単一の品質メトリックを生成しないことである。これらのツールによって報告される複数のメトリックは互いに矛盾する場合があり、複数のアセンブリを比較およびランク付けするときにエンドユーザーを混乱させる可能性がある。また、これらのメトリックは、ランク付けのために複数のアセンブリ間で一貫性なく実行される可能性があり、全体的な品質の観点からアセンブリをランク付けする際の信頼性が低くなる。

 この問題を解決するために、複数の十分に確立されたメトリックの統合により、個々のscaffolds/contigsの品質スコアを使用してデノボアセンブリの品質を評価するデノボアセンブリ品質評価ツール(dnAQET)を開発した。 dnAQETによって生成された品質スコアの有効性を示すために、4つの異なる合成アセンブリセットにツールを適用した。最初のデータセットでは、dnAQETの品質スコアは、より長いscaffoldsのアセンブリの方が優れていることを実証した。2番目のデータセットでは、アセンブリのスキャフォールドで識別されるミスアセンブリの数が増加するにつれて、品質スコアが低下することを示した。 3番目のデータセットでは、アセンブリのリファレンスに対するカバレッジの増加が、それらのアセンブリに対して計算されたdnAQETの品質スコアにプラスの影響を与えることを示すように設計された。これは予想と一致した。最後に、4番目のデータセットを使用して、アセンブリの冗長性が増加すると、それらに割り当てられたdnAQETスコアが低くなる方法を調査した。

 また、染色体の個々の品質スコア全体のスコアを5つの生物(哺乳類4匹と魚1匹)の利用可能なリファレンスゲノムビルドで計算した。これらのリファレンスビルドのdnAQETの品質評価は、リファレンスゲノムのより最近のビルドの方が古いものより良くなると予想され、結果は予想と一致した。さらに、サンプルNA24385の6つのde novoアセンブリを使用して、これまでの十分に確立されたメトリックでは互いに矛盾する結果を示す可能性を示した。リファレンスゲノムビルドをランク付けする時には一貫しない結果を示す可能性かあることを示した。(一部略) 一方、dnAQETの全体的な品質スコアは、両方のデータセットアセンブリのランク付けにおいて非常に一貫しており、アセンブリの品質を評価する信頼性と、de novoアセンブリを比較するベンチマークメトリックとして使用される適合性を証明した。また、dnAQETは非常に高速でスケーラブルであり、合理的な量の計算メモリで、ヒトなどの大規模で複雑なゲノムのアセンブリを処理できることを示した。

(以下略)

 


インストール

ubuntu18.0.4のLTSでテストした。

依存

The dnAQET is a Java package designed to be used in a Unix based operating system (such as Linux, MacOS, etc.) and it requires Java 1.7 Runtime Environment installed. It depends on Minimap2 tool and MUMmer4 package, which requires the following to run successfully.

HP

https://www.fda.gov/science-research/bioinformatics-tools/de-novo-assembly-quality-evaluation-tool-dnaqet

HPからtar ballをダウンロードし、解凍する。中にはjavaのバイナリ(.jar)やマニュアルのREADME.pdf等が入っている。

java -jar dnAQET.jar 

# java -jar dnAQET.jar 

dnAQET version 1.0.25890

 

Usage: <main class> [options] [command] [command options]

 

Command: evaluate Evaluate a de novo assembly by calculating a quality score and also assign quality scores to individual contigs/scaffolds with respect to a reference genome

Usage: evaluate [options]

  Options:

    -q, --alignmentTool

       Tool used for the alignment of the contigs/scaffolds back to reference

       Default: minimap2

       Possible Values: [minimap2, nucmer]

    -d, --evaldestfolder

       Evaluation destination directory

       Default: RESULT

  * -f, --file

       Input contig file

    -j, --jobcommand

       Alignment job submission command

       Default: multithread

       Possible Values: [sbatch, qsub, multithread]

    -p, --jobcommandparams

       Alignment job submission command parameters in quotes

       Default: <empty string>

    -l, --lengthscalingfactor

       The length scaling factor constant that is used to scale the quality

       value of a scaffold/contig based on its size. The default value is the size of

       the smallest chromosome of the reference genome which is used to compute the

       regression model

    -k, --model

       A model file

    -n, --npartition

       Number of partitions for the input contig file

       Default: 1

    -m, --ov_dist_threshold

       Distance (or overlap) treshold for the alignments of consecutive parts of

       a contig to be considered a RELOCATION

       Default: 1000

  * -r, --ref

       A trusted reference genome file

    -t, --threadno

       Number of threads

       Default: 4

 

Command: model Given a reference compute a multiple linear regression model to be used in evaluation

Usage: model [options]

  Options:

    -q, --alignmentTool

       Tool used for the alignment of the contigs/scaffolds back to reference

       Default: minimap2

       Possible Values: [minimap2, nucmer]

    -j, --jobcommand

       Alignment job submission command

       Default: multithread

       Possible Values: [sbatch, qsub, multithread]

    -p, --jobcommandparams

       Alignment job submission command parameters in quotes

       Default: <empty string>

    -d, --modeldestfolder

       Model file destination directory

       Default: MODEL

  * -r, --referencefile

       Input reference file path

    -t, --threadno

       Number of threads

       Default: 4

 

Command: reevaluate Re-compute a previous evaluation with given parameters

Usage: reevaluate [options]

  Options:

    -d, --evaldestfolder

       Re-evaluation destination directory

    -l, --lengthscalingfactor

       The length scaling factor constant that is used to scale the quality

       value of a scaffold/contig based on its size. The default value is the size of

       the smallest chromosome of the reference genome which is used to compute the

       regression model

    -m, --ov_dist_threshold

       Distance (or overlap) treshold for the alignments of consecutive parts of

       a contig to be considered a RELOCATION

       Default: 1000

  * -s, --sourcefolder

       The results output directory from a previous evaluation

    -t, --threadno

       Number of threads

       Default: 4

 

 

 

実行方法

アセンブリ結果を評価する。アセンブルして得た配列と信頼できるリファレンス配列を指定する。

java -jar dnAQET.jar evaluate -f input_assembly.fa -r trusted_ref.fa \
-q minimap2 -d output_dir -t 12
  • -q   Tool which will be used for the alignment of the contigs/scaffolds back to reference Default: minimap2
  • -r   A trusted reference genome file. (this is a required parameter, not optional!)
  • -f   Input contig file path (this is a required parameter, not optional!)
  • -t   Number of threads for alignment (in case -j is selected to be 'multithread') step and for evaluation step.  Default: 4

 

出力ディレクト

f:id:kazumaxneo:20190925215725p:plain

様々なreportが出力される。

qualityScoreHistogram.jpeg

f:id:kazumaxneo:20190925215821j:plain

output_dir/report/

f:id:kazumaxneo:20190925215843p:plain

 assembly.stat

f:id:kazumaxneo:20190925220024p:plain

scaffolds.alignment

f:id:kazumaxneo:20190925220107p:plain

scaffolds.stat

f:id:kazumaxneo:20190925220133p:plain

misassembly.report

f:id:kazumaxneo:20190925220205p:plain

ミスアセンブリはなかった(小さなゲノムのシミュレーションデータのアセンブルを評価している)

引用

dnAQET: a framework to compute a consolidated metric for benchmarking quality of de novo assemblies
Gokhan Yavas, Huixiao Hong, Wenming Xiao

BMC Genomics volume 20, Article number: 706 (2019)