macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ロングリードのリファレンスガイドアセンブリや連鎖地図のマーカーによるガイドアセンブリを行う Kermit

 

 ハイスループットな第二世代シーケンシング技術は、大規模な新規アセンブリを可能にし、そして一般化した。しかしながら、それらのショートリード長は今日でも大きな問題を引き起こしている。1分子リアルタイムシークエンシング(SMRT)およびオックスフォードナノポア(ONT)などの第3世代のロングリードシークエンシング技術は有望であるが、それらのエラー率は実際上アセンブリを困難にしている。したがって、ほとんどのロングリードアセンブラはエラー率を下げるためのエラー訂正ステップを含んでいる。

 最近導入されたMinimap-Miniasmワークフロー[ref.1]は、ロングリードアセンブリのためのエラー訂正フリーパイプラインに向けた新たな洞察を与えた。Minimapは高いエラー率のロングリードから有用なオーバーラップを見つけ、ロングリード専用アセンブリプロジェクトを実用的で非常に効率的にする。ただし、非常に大きなデータセットでは、高いエラー率でリード間のオーバーラップを見つけることは現実的ではなく、リードに関する追加情報がないと、リードを小さいセットに分割することは不可能である。

 アセンブリについて利用可能な唯一の情報がリードであるde novoアセンブリと比較して、ガイドゲノムアセンブリは、リードの位置に関する情報を与える追加のデータを有する。通常、この追加のデータはclosely relatedな種のリファレンスゲノムである。 [ref.2、3、4]。リードはリファレンスゲノムにアライメントでき、それはリードの順序付けをもたらす。これにより、リードのアセンブリが明らかに容易になる。

このようにアセンブリを直接ガイドすると、リファレンスよりも高品質のアセンブリを入手するのが難しくなる。これは、高品質のリファレンスゲノムが存在しない場合、またはドナーゲノムがリファレンスゲノムから離れすぎている場合に問題になる。本論文では、linkage map(以後、連鎖地図)を使用してアセンブリをガイドする。

 連鎖地図(遺伝連鎖地図または遺伝地図とも呼ばれる)[ref.5]は、染色体内でコンティグの方向を定めて配置し、誤ってアセンブリされたコンティグを検出するのに役立つ手法である。連鎖地図自体は、典型的にはいくつかのドラフトアセンブリに関連して呼ばれる可変遺伝マーカーからなる。これらのマーカーは、シーケンシングされた交配、関連する個体の集団から見いだされる一塩基変異(SNV)のような一組の変異に由来する。ゲノム内で互いに近いSNVは、互いにより遠いSNVよりも一緒に遺伝する可能性が高い。したがって、連鎖地図は、交配した個体をジェノタイピングし、SNVが一緒に遺伝する確率を調べることによって構築することができる。

 最近のジェノタイピング技術は進歩しているので、より大きな交配上のより多くの変化を検出することができ、それは以前よりもはるかに密な連鎖地図の構築を可能にする。これは、そのような密集したデータセットのための連鎖地図構築のための計算ツールの開発に拍車をかけた[ref.5]。 密な連鎖地図は、最近のいくつかのシーケンシングされたゲノムについて構築されている。 M. cinxia [ref.6]、H. erato [ref.7]、B. pendula [ref.8]、T. cacao [ref.9]、G. aculeatus [ref.10]、およびT. urartu [ref.11]。十分に密な連鎖地図を用いると、ロングリードについてのおおよそのゲノム位置を直接見つけることが可能である。

 本論文では、連鎖地図の存在下でゲノムアセンブリ問題を定式化する。 ゲノム構築において連鎖地図を直接利用する最初の方法を提案する。本著者らの方法は連鎖地図に基づいて疑わしいエッジを除去することによってオーバーラップグラフを解く。 実験結果は、この方法がオーバーラップグラフを単純化することができ、そして本発明者らの方法が連鎖地図を用いないデノボアセンブリと比較してミスアセンブリの数を減らしそしてN50統計を改善することも示す。

 この連鎖地図ガイドゲノム構築は、リファレンスガイドのゲノム構築の一般定式化と見なすことができる。 等間隔のマーカーの仮想的な連鎖地図では、連鎖地図ガイドアセンブリは、各リードをゲノム上に明確に配置することができ、本質的にリファレンスガイドアセンブリとなる。本方法をhttps://github.com/rikuu/kermitで自由に利用可能にしたKermitと呼ばれるツールで実行した。

 

インストール

本体 Github

git clone --recursive https://github.com/rikuu/kermit && (cd kermit && make)
git clone https://github.com/lh3/minimap2 && (cd minimap2 && make)

kermit/kermit -h      

# kermit/kermit -h      

kermit/kermit: option requires an argument -- 'h'

Usage: kermit [options] <in.paf>

Options:

  Pre-selection:

    -R          prefilter clearly contained reads (2-pass required)

    -G INT      use only reads with given color

    -m INT      min match length [100]

    -i FLOAT    min identity [0.05]

    -s INT      min span [2000]

    -c INT      min coverage [3]

  Overlap:

    -o INT      min overlap [same as -s]

    -h INT      max over hang length [1000]

    -I FLOAT    min end-to-end match ratio [0.8]

  Layout:

    -g INT      max gap differences between reads for trans-reduction [1000]

    -d INT      max distance for bubble popping [50000]

    -e INT      small unitig threshold [4]

    -f FILE     read sequences

    -n INT      rounds of short overlap removal [3]

    -r FLOAT[,FLOAT]

                max and min overlap drop ratio [0.7,0.5]

    -F FLOAT    aggressive overlap drop ratio in the end [0.8]

  Coloring:

    -C FILE     read colors

    -D INT      max propagation depth [5]

    -b INT      max distance between colors [1]

  Miscellaneous:

    -p STR      output information: ug, sg, or cf [ug]

    -b          both directions of an arc are present in input

    -1          skip 1-pass read selection

    -2          skip 2-pass read selection

    -P          skip propagation

    -V          print version number

kermit/kermit-color -h

# kermit/kermit-color -h

kermit/kermit-color: invalid option -- 'h'

Usage: kermit-color [options] <in.paf> <markers> [<markers2>,..]

Options:

 -V          print version number and exit

 -o [INT]    max extension of mapping

 -l [INT]    index bin length

 -u          assign single color per contig

 

実行方法

1、リファレンスガイドアセンブリ

# Color

minimap2/minimap2 -t8 -x map-pb reference.fa reads.fq > reference.paf 
kermit/kermit-color reference.paf > reads.cf

# Overlap

minimap2/minimap2 -t8 -x ava-pb reads.fq reads.fq > reads.paf 

# Layout

kermit/kermit -C reads.cf -f reads.fq reads.paf > reads.gfa 

GFAファイルが出力される。

 

 

2、マーカー遺伝子情報がある場合、Coloring stepで指定する。

kermit/kermit-color reference.paf > reads.cf kermit/kermit-color reference.paf map.txt > reads.cf

 

引用

Kermit: linkage map guided long read assembly
Riku Walve, Pasi Rastas

Algorithms for Molecular Biology December 2019, 14:8

 

関連