macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(ヒトゲノム)ハイパフォーマンスなハイブリッドアセンブラ WENGAN

2020 3/7 パラメータの表記ミス修正 

 

 ロングリードシーケンシング技術の継続的な改善により、高品質のゲノムを約束する新しいde novoアセンブリ時代が始まっている。ただしロングリードのみを使用して、大規模で反復性の高いヒトゲノムの正確なゲノムアセンブリを生成することは困難であることが証明されている。これまで、エラーが発生しやすいロングリードからアセンブリされたヒトゲノムのほとんどは、コンセンサスの質をさらにポリッシュするために正確なショートリードの追加を必要とする。ここでは、ハイブリッドアセンブリ、WENGAN、およびONT PromethION、PacBio Sequel、Illumina、MGIテクノロジーで生成されたシーケンスデータの組み合わせを使用した4つのヒトゲノムの新規アセンブリの新規アルゴリズムの開発について報告する。 WENGANは、コンセンサス品質だけでなくアセンブリの連続性に取り組むために、ショートリードとロングリードのシーケンス情報を活用する効率的なアルゴリズムを実装している。結果として得られるゲノムアセンブリは、高い連続性(contig NG50:16.67-62.06 Mb)、少ないアセンブリエラー(contig NGA50:10.9-45.91 Mb)、良好なコンセンサス品質(QV:27.79- 33.61)、および高い遺伝子完全性(BUSCO complete:94.6 -95.1%)、低い計算リソースしか消費しない(CPU時間:153-1027)。特に、半数体CHM13サンプルのWENGANアセンブリは、コンティグNG50 62.06 Mb(NGA50:45.91 Mb)を達成した。これは、現在のヒトリファレンスゲノム(GRCh38 contig NG50:57.88 Mb)の隣接性を超えている。低い計算コストで最高の品質を提供するWENGANは、ヒトゲノムのde novoアセンブリ民主化に向けた重要なステップである。 WENGANアセンブラは、https;//github.com/adigenova/wenganから入手できる。

 Wenganは新しいゲノムアセンブラであり、現在のほとんどのロングリードアセンブラとは異なり、すべてのリード対すべてのリードの比較を完全に回避する。 Wenganの背後にある重要な考え方は、シーケンスグラフ上にパスを構築することで、ロングリードのアライメントを推測できるということである。 これを実現するために、WenganはSynthetic Scaffolding Graphと呼ばれる新しいシーケンスグラフを作成する。 SSGは、未加工のロングリードから抽出された合成メイトペアライブラリのスペクトルから構築される。 その後、エッジの推移的な削減を実行することにより、より長いアライメントが構築される。 Wenganのもう1つの特徴は、読み取った情報を追跡することで自己検証を実行することである。 Wenganは、アセンブリプロセスのさまざまなステップでミスアセンブリを特定する。 

 

Githubより

WENGANはマプドゥングン語である。 マプドゥングンは、チリ中南部の最大の先住民であるマプチェ族の言語であり、WENGANは「道を作る」という意味を持つ。 

 

2020/03現在、genomeサイズ4Gb以上はサポートされていない。

 

https://twitter.com/search?q=WENGAN%20assembler&src=typed_query

 

インストール

ubuntu18.04LTSでテストした。

本体 Github

https://github.com/adigenova/wengan/releasesからダウンロード、解凍する。

cd wengan-v0.1-bin-Linux/

> perl wengan.pl

# perl wengan.pl 

 

  Usage example :

    # Assembling Oxford nanopore and illumina reads with WenganM

    wengan.pl -x ontraw -a M -s lib1.fwd.fastq.gz,lib1.rev.fastq.gz -l ont.fastq.gz -p asm1 -t 20 -g 3000

 

  Wengan options:

 

   Mandatory options***:

      -x preset [ontlon,ontraw,pacraw,pacccs]

      -a Mode [M,A,D]

      -s short-reads [fwd1.fastq.gz,rev1.fastq.gz..]

      -l long-reads.fq.gz

      -g 3000 [genome size in Mb]

      -p prefix

 

   General Options :

      -h [detail information]

      -t cores [1]

      -c <pre-assembled short-read contigs>

      -i <insert size lists>

      -n <show pipeline comands>;

 

   Advanced Options (Change the presets):

      FastMin-SG options:

        -k k-mer size [15-28]

        -w minimizer window [5-15]

        -q minimum mapping quality [20-60]

        -m moving window [150]

      IntervalMiss options:

        -d Minimum base coverage [def:7]

      Liger options:

        -M Minimum contig length in backbone [def:2000]

        -R Repeat copy number factor [def:1.5]

        -L Length of long mate-edges [def:100000]

        -N Number of long-read needed to keep a potencial erroneus mate-edge [def:5]

        -P Minimum length of reduced paths to convert them to physical fragments [def:20kb]

 

 wengan.pl -h for detailed usage information.

 

 

実行方法

リードは前もってgzip圧縮しておく。

 

illuminaのショートリードとONTのロングリードのアセンブリ(WenganM)

wengan.pl -x ontraw -a M -s pair1.fq.gz,pair2.fq.gz -l ont.fq.gz -p test1 -g 3000 -t 40
  • -a <Mode>   [M,A,D]
  • -g 3000   [genome size in Mb]
  • -l    long-reads.fq.gz
  • -s   short-reads [fwd1.fastq.gz,rev1.fastq.gz..]
  • -t    cores [1]
  • -p   prefix

 

illuminaの ショートリードとPacbioのロングリードのアセンブリ(WenganA)

wengan.pl -x pacraw -a A -s pair1.fq.gz,pair2.fq.gz -l pac.fq.gz -p test2 -g 3000 -t 40

 

BGIの ショートリードとONTのウルトラロングリードのアセンブリ(WenganM)

wengan.pl -x ontlon -a M -s pair1.fq.gz,pair2.fq.gz -l ont.fq.gz -p test3 -g 3000 -t 40

 

PacbioのCCSロングリードのアセンブリ(WenganM)

wengan.pl -x pacccs -a M -l ccs.fq.gz -p test4 -g 3000 -t 40

 

illuminaの ショートリードとONTのウルトラロングリードのアセンブリ(WenganD: ヒトゲノムだと600GB程度メモリを要求)

wengan.pl -x ontlon -a D -s pair1.fq.gz,pair2.fq.gz -l ont.fq.gz -p test5 -g 3000 -t 40

 

プリアセンブリされたショートリード由来コンティグを指定する。

#Minia3
wengan.pl -x pacraw -a M -s pair1.fq.gz,pair2.fq.gz -l pac.fq.gz -p test6 -g 3000 -c contigs.minia.fa -t 40

#Abyss
wengan.pl -x pacraw -a A -s pair1.fq.gz,pair2.fq.gz -l pac.fq.gz -p test7 -g 3000 -c contigs.abyss.fa -t 40

#DiscovarDenovo
wengan.pl -x pacraw -a D -s pair1.fq.gz,pair2.fq.gz -l pac.fq.gz -p test8 -g 3000 -c contigs.disco.fa -t 40

 

 

引用

WENGAN: Efficient and high quality hybrid de novo as- sembly of human genomes
Alex Di Genova, Elena Buena-Atienza, Stephan Ossowski, Marie-France Sagot

bioRxiv, Posted November 25, 2019

 

関連