オックスフォード・ナノポア・テクノロジーズやパシフィック・バイオサイエンスなどのプラットフォームからの第三世代シーケンシング技術は、より連続したアセンブリを構築し、ゲノムを完全に再構築する道を開いた。これらのテクノロジーで生成されより長いたリード長は、短距離から中距離のリピートの課題を克服する手段を提供した。現在、正確なロングリードアセンブラは計算コストが高く、一方で高速なメソッドはそれほど正確ではない。したがって、大小のゲノムを再構築するための高速かつ正確なツールに対するニーズは未だに満たされていない。最近の第3世代シーケンスの進歩にもかかわらず、研究者は多くの分析タスクに対して第2世代のリードを生成する傾向がある。ここでは、第2世代と第3世代の両方のシーケンシングリードを使用して正確なゲノムアセンブリを効率的に生成するハイブリッドアセンブラであるHASLRを紹介する。我々(本著者ら)の実験は、HASLRが最速のアセンブラであるだけでなく、他のテスト済みのアセンブラと比較して、すべてのサンプルでミスアセンブリの数が最も少ないことも示している。さらに、連続性と精度の観点から、生成されたアセンブリは、ほとんどのサンプルで他のツールと同等である。HASLRは、https://github.com/vpc-ccg/haslrからオープンソースのツールとして利用できる。
HASLRへの入力は、ゲノムサイズの推定と、同じサンプル由来のロングリード(LR)のセットとショートリード(SR)のセットである。 HASLRは、All versus allのLRアラインメントを実行することなく、ゲノムを迅速にアセンブルする新しいアプローチを使用してアセンブリを実行する。 HASLRのコアは、最初に、効率的なSRアセンブラを使用したSRからのコンティグのアセンブルと、次に、LRを使用したゲノムのバックボーンを表すコンティグの配列を見つけることである。
関連ツイート
https://twitter.com/search?q=HASLR&src=typed_query
インストール
ubuntu18.04LTSでテストした。
ビルド依存
- GCC ≥ 4.8.5
- Python3
- zlib
本体 Github
https://github.com/vpc-ccg/haslr
#bioconda (link)
mamba create -n haslr -y
conda activate haslr
mamba install -c bioconda haslr -y
> haslr.py -h
# haslr.py
usage: haslr.py [-t THREADS] -o OUT_DIR -g GENOME_SIZE -l LONG -x LONG_TYPE -s SHORT [SHORT ...]
(haslr) root@d100919f62b0:/data/bindash/release/Lingon# haslr.py -h
usage: haslr.py [-t THREADS] -o OUT_DIR -g GENOME_SIZE -l LONG -x LONG_TYPE -s SHORT [SHORT ...]
required arguments:
-o, --out OUT_DIR output directory
-g, --genome GENOME_SIZE estimated genome size; accepted suffixes are k,m,g
-l, --long LONG long read file
-x, --type LONG_TYPE type of long reads chosen from {pacbio,nanopore}
-s, --short SHORT [SHORT ...] short read file
optional arguments:
-t, --threads THREADS number of CPU threads to use [1]
--cov-lr COV_LR amount of long read coverage to use for assembly [25]
--aln-block ALN_BLOCK minimum length of alignment block [500]
--aln-sim ALN_SIM minimum alignment similarity [0.85]
--edge-sup EDGE_SUP minimum number of long read supporting each edge [3]
--minia-kmer MINIA_KMER kmer size used by minia [49]
--minia-solid MINIA_SOLID minimum kmer abundance used by minia [3]
--minia-asm MINIA_ASM type of minia assembly chosen from {contigs,unitigs} [contigs]
-v, --version print version
-h, --help show this help message and exit
テストラン
1、データのダウンロード(E.coli)
#pacbio
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_filtered.fastq.gz
#illumina
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_miseq.1.fastq.gz
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_miseq.2.fastq.gz
2、ラン。ロンリードとショートリードを指定する。推定ゲノムサイズも記載する必要がある。
haslr.py -t 8 -o ecoli -g 4.6m -l ecoli_filtered.fastq.gz -x pacbio -s ecoli_miseq.1.fastq.gz ecoli_miseq.2.fastq.gz
- -t number of CPU threads to use [1]
- -o output directory
- -g estimated genome size; accepted suffixes are k,m,g
- -l long read file
- -x type of long reads chosen from {pacbio, nanopore}
- -s short read file
ペーパーの表1、3で他のハイブリッドアセンブリツールと比較しています。WENGANなど最近のハイブリッドアセンブラも含まれています。確認して下さい。
引用
HASLR: Fast Hybrid Assembly of Long Reads
Ehsan Haghshenas, Hossein Asghari, Jens Stoye, Cedric Chauve, Faraz Hach
doi: https://doi.org/10.1101/2020.01.27.921817
bioRxiv, Posted January 28, 2020
関連