ロングシーケンスリードは、断片化されたショートリードベースのゲノムアセンブリのコンティグ性と完全性を高めるために、理想的には高い精度でアセンブリギャップを閉じることができる。これまでにもいくつかのギャップ解消法が開発されてきたが、これらの方法では、真の配列を正確に表さない配列でアセンブリギャップを解消することがしばしばあった。ここでは、ショートリードのアセンブリのギャップをロングリードで閉じるための、高感度で高精度な自動化されたパイプライン手法であるDENTISTを紹介する。DENTISTは、信頼性が高く明確なロングリードの正しい遺伝子座へのアラインメントを特定するために、アセンブリの反復領域を包括的に決定し、挿入された配列の高い塩基精度を得るためにコンセンサス配列の計算ステップを統合し、ギャップクローズの精度を検証する。これまでのベンチマークとは異なり、実際のショートリードアセンブリがギャップを持つ位置と同じ位置にギャップを持つテストアセンブリを生成した。このような現実的なベンチマークをショウジョウバエ(134 Mbのゲノム)、シロイヌナズナ(119 Mb)、ハチドリ(1 Gb)、ヒト(3 Gb)について作成し、シミュレートまたは実際のPacBioリードを使用したところ、DENTISTは従来の手法と比較して、同等の感度を持ちながら、一貫して大幅に高い精度を達成していることが分かった。また、DENTISTは、コンティグのギャップを埋めるだけでなく、ロングリードを用いてコンティグを正確にスキャフォールドすることができるため、コンティグのみのアセンブリにも適用範囲を広げることができる。
以上のことから、DENTISTは、ロングリードで断片化されたアセンブリの連続性と完全性を向上させる正確なアプローチを提供する。DENTISTのソースコード(SnakemakeワークフローとDockerコンテナを含む)は、https://github.com/a-ludi/dentist。また、今後のベンチマークのためのリソースとして、すべてのテストアセンブリをhttps://bds.mpi-cbg.de/hillerlab/DENTIST/で公開している。
DENTISTは、断片化したアセンブリのギャップを埋めるために、未修正のロングシーケンスリードを使用する新しい手法である。DENTISTは、アセンブリのギャップを非常に高い精度で埋めることを主な目的として開発された。そのために、リードを正しいアセンブリ遺伝子座にマッピングするための繰り返しを考慮したリードアライメントステップ、ギャップを埋めるための正確な配列を得るためのコンセンサス配列ステップ、そして最終的な検証ステップを実装している。シミュレーションと実際のPacBioのロングリードデータを用いたテストでは、DENTISTの手法は、既存のツールよりも大幅に精度が高く、かつ良好な感度を達成した。さらに、DENTISTは高速で、中程度のメモリしか必要としない。DENTISTはまた、ロングリードを用いてscaffolds間のギャップを埋めたり、コンティグのみのアセンブリの足場としたりすることができる。これらの特徴により、DENTISTは、補助的なロングリードデータを用いて、既存の何百ものドラフトゲノムの品質を向上させる作業に適している。
ギャップ解消法の精度は、主にリードのマッピングの精度と、エラーを起こしやすいロングシーケンスリードから正確なコンセンサスを決定できるかどうかに影響される。後者の点は一般的に困難であり、リードカバレッジが高い場合でも、Q40(99.99%の塩基精度)の望ましい塩基精度に到達することは困難である。そのため、ロングリードからのデノボゲノムアセンブリでは、最終的に「ポリッシング」ステップを行い、短いイルミナリードを最終的なアセンブリにマッピングして、残っている塩基エラーを修正する。DENTISTはギャップに挿入された配列の高い塩基精度をすでに達成しているが、この精度はQ40よりも低い。そのため、DENTISTを適用した後、Illuminaリードを用いてギャップクローズドアセンブリを研磨することを勧める。また、DENTISTは99%以上の塩基精度を達成することで、従来の方法では精度が低いために困難であった短いIlluminaリードのマッピングを容易にする。
インストール
リリースからprebuildのバイナリをダウンロードしてテストした。
依存
- Install Snakemake version >=5.32.1
# launch an interactive shell
singularity shell docker://aludi/dentist:stable
#Build from Source (Be sure to install the D package manager DUB)
git clone https://github.com/a-ludi/dentist.git
cd dentist
dub build
リリースからバイナリをダウンロードできる。
wget https://github.com/a-ludi/dentist/releases/download/v2.0.0/dentist.v2.0.0.x86_64.tar.gz
tar -xzf dentist.v2.0.0.x86_64.tar.gz
cd dentist.v2.0.0.x86_64
PATH="$PWD/bin:$PATH"
#check installation
> dentist -d
> dentist
$ dentist
Usage: dentist [--dependencies] [--help] [--list-options] [--usage] [--version]
<command> [<options...>]
Close assembly gaps using long-reads with focus on correctness.
Positional arguments:
<command> Execute <command>. Available commands are: validate-config,
generate-dazzler-options, mask-repetitive-regions,
propagate-mask, filter-mask, merge-masks, show-mask, bed2mask,
chain-local-alignments, collect-pile-ups, show-pile-ups,
process-pile-ups, show-insertions, merge-insertions, output,
translate-coords, validate-regions. Use `dentist <command>
--help` to get help for a specific command. <command> may be
abbreviated by using a unique prefix of the full command
string.
<options...> Command specific options
Optional arguments:
--dependencies, -d
Print a list of external binaries and if they are on PATH. Exit
non-zero if one or more binaries cannot be found.
--help, -h Prints this help.
--list-options, -l
Print a list of all options across all commands.
--usage Print a short command summary.
--version Print software version.
テストラン
wget https://github.com/a-ludi/dentist-example/releases/download/v2.0.0-1/dentist-example.tar.gz
tar -xzf dentist-example.tar.gz
cd dentist-example
PATH="$PWD/bin:$PATH" snakemake --configfile=snakemake.yml --cores=all
入力と出力は.ymlファイルで定義する。
テストデータはカレントパス直下のdata/に用意されている。
出力
引用
DENTIST – using long reads to close assembly gaps at high accuracy
Arne Ludwig, Martin Pippel, Gene Myers, Michael Hiller
bioRxiv, Posted February 27, 2021
関連