ハイスループットな第二世代シーケンシング技術は、大規模な新規アセンブリを可能にし、そして一般化した。しかしながら、それらのショートリード長は今日でも大きな問題を引き起こしている。1分子リアルタイムシークエンシング(SMRT)およびオックスフォードナノポア(ONT)などの第3世代のロングリードシークエンシング技術は有望であるが、それらのエラー率は実際上アセンブリを困難にしている。したがって、ほとんどのロングリードアセンブラはエラー率を下げるためのエラー 修正ステップを含んでいる。
最近導入されたMinimap-Miniasmワークフロー[ref.1]は、ロングリードアセンブリのためのエラー修正フリーパイプラインに向けた新たな洞察を与えた。Minimapは高いエラー率のロングリードから有用なオーバーラップを見つけ、ロングリード専用アセンブリプロジェクトを実用的で非常に効率的にする。ただし、非常に大きなデータセットでは、高いエラー率でリード間のオーバーラップを見つけることは現実的ではなく、リードに関する追加情報がないと、リードを小さいセットに分割することは不可能である。
アセンブリについて利用可能な唯一の情報がリードであるde novoアセンブリと比較して、ガイドゲノムアセンブリは、リードの位置に関する情報を与える追加のデータを有する。通常、この追加のデータはclosely relatedな種のリファレンスゲノムである[ref.2、3、4]。リードはリファレンスゲノムにアライメントでき、それはリードの順序付けをもたらす。これにより、リードのアセンブリが明らかに容易になる。
このように、アセンブリを直接ガイドすると、リファレンスよりも高品質のアセンブリを入手するのが難しくなる。これは、高品質のリファレンスゲノムが存在しない場合、またはドナーゲノムがリファレンスゲノムから離れすぎている場合に問題になる。本論文では、linkage map(以後、連鎖地図)を使用してアセンブリをガイドする。
連鎖地図(遺伝連鎖地図または遺伝地図とも呼ばれる)[ref.5]は、染色体内でコンティグの方向を定めて配置し、誤ってアセンブリされたコンティグを検出するのに役立つ手法である。連鎖地図自体は、典型的にはいくつかのドラフトアセンブリに関連して呼ばれる可変遺伝マーカーからなる。これらのマーカーは、シーケンシングされた交配、関連する個体の集団から見いだされる一塩基変異(SNV)のような一組の変異に由来する。ゲノム内で互いに近いSNVは、互いにより遠いSNVよりも一緒に遺伝する可能性が高い。したがって、連鎖地図は、交配した個体をジェノタイピングし、SNVが一緒に遺伝する確率を調べることによって構築することができる。
最近のジェノタイピング技術は進歩しているので、より大きな交配上のより多くの変化を検出することができ、それは以前よりもはるかに密な連鎖地図の構築を可能にする。これは、そのような密集したデータセットのための連鎖地図構築のための計算ツールの開発に拍車をかけた[ref.5]。 密な連鎖地図は、最近のいくつかのシーケンシングされたゲノムについて構築されている。 M. cinxia [ref.6]、H. erato [ref.7]、B. pendula [ref.8]、T. cacao [ref.9]、G. aculeatus [ref.10]、およびT. urartu [ref.11]。十分に密な連鎖地図を用いると、ロングリードについてのおおよそのゲノム位置を直接見つけることが可能である。
本論文では、連鎖地図の存在下でゲノムアセンブリ問題を定式化する。 ゲノム構築において連鎖地図を直接利用する最初の方法を提案する。本著者らの方法は連鎖地図に基づいて疑わしいエッジを除去することによってオーバーラップグラフを解く。 実験結果は、この方法がオーバーラップグラフを単純化することができ、そして本発明者らの方法が連鎖地図を用いないデノボアセンブリと比較してミスアセンブリの数を減らしそしてN50統計を改善することも示す。
この連鎖地図ガイドゲノム構築は、リファレンスガイドのゲノム構築の一般定式化と見なすことができる。 等間隔のマーカーの仮想的な連鎖地図では、連鎖地図ガイドアセンブリは、各リードをゲノム上に明確に配置することができ、本質的にリファレンスガイドアセンブリとなる。本方法をhttps://github.com/rikuu/kermitで自由に利用可能にしたKermitと呼ばれるツールで実行した。
インストール
本体 Github
git clone --recursive https://github.com/rikuu/kermit && (cd kermit && make)
git clone https://github.com/lh3/minimap2 && (cd minimap2 && make)
> kermit/kermit -h
# kermit/kermit -h
kermit/kermit: option requires an argument -- 'h'
Usage: kermit [options] <in.paf>
Options:
Pre-selection:
-R prefilter clearly contained reads (2-pass required)
-G INT use only reads with given color
-m INT min match length [100]
-i FLOAT min identity [0.05]
-s INT min span [2000]
-c INT min coverage [3]
Overlap:
-o INT min overlap [same as -s]
-h INT max over hang length [1000]
-I FLOAT min end-to-end match ratio [0.8]
Layout:
-g INT max gap differences between reads for trans-reduction [1000]
-d INT max distance for bubble popping [50000]
-e INT small unitig threshold [4]
-f FILE read sequences
-n INT rounds of short overlap removal [3]
-r FLOAT[,FLOAT]
max and min overlap drop ratio [0.7,0.5]
-F FLOAT aggressive overlap drop ratio in the end [0.8]
Coloring:
-C FILE read colors
-D INT max propagation depth [5]
-b INT max distance between colors [1]
Miscellaneous:
-p STR output information: ug, sg, or cf [ug]
-b both directions of an arc are present in input
-1 skip 1-pass read selection
-2 skip 2-pass read selection
-P skip propagation
-V print version number
> kermit/kermit-color -h
# kermit/kermit-color -h
kermit/kermit-color: invalid option -- 'h'
Usage: kermit-color [options] <in.paf> <markers> [<markers2>,..]
Options:
-V print version number and exit
-o [INT] max extension of mapping
-l [INT] index bin length
-u assign single color per contig
実行方法
1、リファレンスガイドアセンブリ
# Color
minimap2/minimap2 -t8 -x map-pb reference.fa reads.fq > reference.paf
kermit/kermit-color reference.paf > reads.cf
# Overlap
minimap2/minimap2 -t8 -x ava-pb reads.fq reads.fq > reads.paf
# Layout
kermit/kermit -C reads.cf -f reads.fq reads.paf > reads.gfa
GFAファイルが出力される。
2、マーカー遺伝子情報がある場合、Coloring stepで指定する。
kermit/kermit-color reference.paf > reads.cf kermit/kermit-color reference.paf map.txt > reads.cf
引用
Kermit: linkage map guided long read assembly
Riku Walve, Pasi Rastas
Algorithms for Molecular Biology December 2019, 14:8
関連