macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

contigをscaffoldingする Scaffold_builder

#今回からDNAシーケンシング => DNAシークエンシングに統一。

 

 第二世代シークエンシングは、完全なゲノムシークエンシングのための最も費用対効果が高く、すぐに利用可能な技術である。完全なゲノム配列のアセンブリとscaffoldingはしばしば課題のままとなっている[ref.1]。ペアエンドシーケンスはscaffoldsを作成することでこれを大幅に改善できる[ref.2]が、ペアエンド情報が利用できないか使い果たされた場合、closelt relatedなリファレンスゲノムによって提供される類似性は、コンティグのscaffoldingを支援する独立した情報を提供できる[ref.3]。たとえば、MIRA [ref.4]などの一部のアセンブラは、アセンブリプロセス中にリファレンスベースのアセンブリを作成し、アセンブリにリファレンスの完全なゲノム構造を提供できる[ef.5、6]。(一部略)

 現在利用可能な大部分のscaffoldingプログラムは、メイトペアシーケンスによって提供される情報を使用して、コンティグをより長いscaffoldsに結合する[ref.2、10]。また、コンティグの順番に基づいた手動のゲノムscaffoldsのためのソフトウェアがある[ref.11]。ここでは、補完的なアプローチを提供するプログラムScaffold_builderを紹介し、リファレンスゲノムの相同性を利用してコンティグを順番付け、scaffoldsを構築する。リードおよび可能なペアエンドデータから初期de novoアセンブリを作成した後、リファレンスゲノムを使用してコンティグのscaffoldsを構築する。したがって、de novoアセンブリが確実な領域のコンティグシーケンスを受け入れ、コンティグの順序と方向を調整することで、リファレンスゲノムが構成されたシーケンスに構造を追加できるようにする。 (一部略)
 Scaffold_builderプログラムは、いくつかの分析ステップを実行する(論文図1)。最初に、Nucmer(デフォルトのパラメーターを使用)を実行してコンティグをリファレンスゲノムにマッピングし、ヒットをShow-coordsで解析する[ref.19]。少なくとも95%の長さ(デフォルト値)で複数の場所にマップされたコンティグは、あいまいにマップされると見なされ、個別に報告される。次に、Scaffold_builderは最長ヒットの位置を使用してコンティグ全体を配置し、マッピングされていない「オーバーハング」をリファレンスに沿って延長する。(以下略) 

 

インストール

依存

本体 GIthub

#bioconda (link) scaffold_builderという名前で仮想環境を作って導入
conda create -n scaffold_builder -c bioconda -y scaffold_builder python=2.7
conda activate scaffold_builder

> scaffold_builder.py

Scaffold_builder version v 2.2

 

Usage:

python scaffold_builder.py -q query_contigs.fna -r reference_genome.fna -p output_prefix [-t] [-i] [-a] [-b]

 

-q fasta file of contigs

Required. Query contigs in Fasta format. These contigs may be the output of a de novo

assembly program such as Newbler, Velvet or MIRA.

 

-r fasta file containing reference genome

Required. Reference genome in Fasta format. This should preferably be a completed genome

sequence.

 

-p prefix output files

Required. All the output files have this project name as prefix.

 

-t length of terminus that will be aligned (default 300 nt)

At any break between two contigs, scaffold_builder checks whether the termini

of the adjacent contigs are homologous by aligning them using Smith-Waterman's Algorithm, and

combines them if that is the case.

 

-i minimum identity for merging contigs (default 80%)

If the termini are similar, scaffold_builder assumes that the contigs should

have been combined by the assembly program, but the similarity was probably

below the assembly thresholds, or the contigs were not merged due to ambiguous

read mapping. The sequences are combined and in the case that non-identical

nucleotides are aligned, the IUPAC code of their consensus is placed in the

resulting sequence.

 

-a minimum length for ambiguously mapped contigs (default 95%)

If a contig maps to more than one location on the reference genome, it will

not be scaffolded because it's location is ambiguous. This parameter defines

how much of the length of a contig should be mapped in more than one location

for it to be considered ambiguously mapped.

 

-b 0/1 dictates behavior for rearrangements (default 0)

0: place end-to-end

1: create new scaffold sequence

If the mapping of the contigs onto the reference suggests that they overlap,

but the contig termini are too dissimilar to join them, this option dictates

whether scaffold_builder places the contigs end-to-end (default; deletions

expected) or to start a new scaffold sequence (inversions expected).

 

-g maximum gap length allowed (default 5000nt)

 

 

実行方法

contigsとできるだけclosely relatedなリファレンスゲノムを指定する。

scaffold_builder.py -q contigs.fna -r ref.fasta -p output_prefix
  • -q    Required. Query contigs in Fasta format. These contigs may be the output of a de novo assembly program such as Newbler, Velvet or MIRA.
  • -r    Required. Reference genome in Fasta format. This should preferably be a completed genome sequence.
  • -p   Required. All the output files have this project name as prefix. 

 

 

 テストしていませんがwebサーバーも用意されています。

http://edwards.sdsu.edu/scaffold_builder/

f:id:kazumaxneo:20191014160211p:plain

 

 

引用

Combining de novo and reference-guided assembly with scaffold_builder
Genivaldo GZ Silva, Bas E Dutilh, T David Matthews, Keri Elkins, Robert Schmieder, Elizabeth A Dinsdale & Robert A Edwards
Source Code for Biology and Medicine volume 8, Article number: 23 (2013)