macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

スモールゲノムからラージゲノムまで対応した高速かつ精度の高いハイブリッドアセンブラ HASLR

 

 

 オックスフォード・ナノポア・テクノロジーズやパシフィック・バイオサイエンスなどのプラットフォームからの第三世代シーケンシング技術は、より連続したアセンブリを構築し、ゲノムを完全に再構築する道を開いた。これらのテクノロジーで生成されより長いたリード長は、短距離から中距離のリピートの課題を克服する手段を提供した。現在、正確なロングリードアセンブラは計算コストが高く、一方で高速なメソッドはそれほど正確ではない。したがって、大小のゲノムを再構築するための高速かつ正確なツールに対するニーズは未だに満たされていない。最近の第3世代シーケンスの進歩にもかかわらず、研究者は多くの分析タスクに対して第2世代のリードを生成する傾向がある。ここでは、第2世代と第3世代の両方のシーケンシングリードを使用して正確なゲノムアセンブリを効率的に生成するハイブリッドアセンブラであるHASLRを紹介する。我々(本著者ら)の実験は、HASLRが最速のアセンブラであるだけでなく、他のテスト済みのアセンブラと比較して、すべてのサンプルでミスアセンブリの数が最も少ないことも示している。さらに、連続性と精度の観点から、生成されたアセンブリは、ほとんどのサンプルで他のツールと同等である。HASLRは、https://github.com/vpc-ccg/haslrからオープンソースのツールとして利用できる。

HASLRへの入力は、ゲノムサイズの推定と、同じサンプル由来のロングリード(LR)のセットとショートリード(SR)のセットである。 HASLRは、All versus allのLRアラインメントを実行することなく、ゲノムを迅速にアセンブルする新しいアプローチを使用してアセンブリを実行する。 HASLRのコアは、最初に、効率的なSRアセンブラを使用したSRからのコンティグのアセンブルと、次に、LRを使用したゲノムのバックボーンを表すコンティグの配列を見つけることである。

 

関連ツイート

https://twitter.com/search?q=HASLR&src=typed_query

 

インストール

ubuntu18.04LTSでテストした。

ビルド依存

  • GCC ≥ 4.8.5
  • Python3
  • zlib

本体 Github

https://github.com/vpc-ccg/haslr

#bioconda (link)
mamba create -n haslr -y
conda activate haslr
mamba install -c bioconda haslr -y

haslr.py -h

# haslr.py 

usage: haslr.py [-t THREADS] -o OUT_DIR -g GENOME_SIZE -l LONG -x LONG_TYPE -s SHORT [SHORT ...]

(haslr) root@d100919f62b0:/data/bindash/release/Lingon# haslr.py -h

usage: haslr.py [-t THREADS] -o OUT_DIR -g GENOME_SIZE -l LONG -x LONG_TYPE -s SHORT [SHORT ...]

 

required arguments:

  -o, --out OUT_DIR              output directory

  -g, --genome GENOME_SIZE       estimated genome size; accepted suffixes are k,m,g

  -l, --long LONG                long read file

  -x, --type LONG_TYPE           type of long reads chosen from {pacbio,nanopore}

  -s, --short SHORT [SHORT ...]  short read file

 

optional arguments:

  -t, --threads THREADS          number of CPU threads to use [1]

  --cov-lr COV_LR                amount of long read coverage to use for assembly [25]

  --aln-block ALN_BLOCK          minimum length of alignment block [500]

  --aln-sim ALN_SIM              minimum alignment similarity [0.85]

  --edge-sup EDGE_SUP            minimum number of long read supporting each edge [3]

  --minia-kmer MINIA_KMER        kmer size used by minia [49]

  --minia-solid MINIA_SOLID      minimum kmer abundance used by minia [3]

  --minia-asm MINIA_ASM          type of minia assembly chosen from {contigs,unitigs} [contigs]

  -v, --version                  print version

  -h, --help                     show this help message and exit

 

 

テストラン

1、データのダウンロード(E.coli)

#pacbio
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_filtered.fastq.gz
#illumina
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_miseq.1.fastq.gz
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_miseq.2.fastq.gz

2、ラン。ロンリードとショートリードを指定する。推定ゲノムサイズも記載する必要がある。

haslr.py -t 8 -o ecoli -g 4.6m -l ecoli_filtered.fastq.gz -x pacbio -s ecoli_miseq.1.fastq.gz ecoli_miseq.2.fastq.gz
  • -t       number of CPU threads to use [1]
  • -o      output directory
  • -g      estimated genome size; accepted suffixes are k,m,g
  • -l       long read file
  • -x      type of long reads chosen from {pacbio, nanopore}
  • -s       short read file

 

ペーパーの表1、3で他のハイブリッドアセンブリツールと比較しています。WENGANなど最近のハイブリッドアセンブラも含まれています。確認して下さい。

引用

HASLR: Fast Hybrid Assembly of Long Reads

Ehsan Haghshenas, Hossein Asghari, Jens Stoye, Cedric Chauve, Faraz Hach
doi: https://doi.org/10.1101/2020.01.27.921817

bioRxiv, Posted January 28, 2020

 

関連