非常に多様なウイルスゲノムのハプロタイプを解決したデノボアセンブリは、ウイルス疾患の予防、制御、治療に不可欠である。現在の方法では、比較的精度の高いショートリードデータしか扱えないか、ハプロタイプ特有の変異をコンセンサス配列に折り込んでしまうかのどちらかである。ここでは、リファレンスゲノムがなくノイズの多いロングリードからウイルスのハプロタイプをアセンブルする新しいアプローチであるStrainlineを紹介する。Strainlineは、ノイズの多い第三世代シーケンサーのデータから、ウイルス準種の株を解像した完全長のde novoアセンブリを提供する初めてのアプローチである。様々な複雑さと多様性を持つシミュレーションデータと実際のデータの両方を用いたベンチマーク実験では、関連する基準の観点から、Strainlineが最先端の技術と比較して優れていることが示され、この新規性が確認された。
インストール
依存
- minimap2
- daccord
- samtools
- spoa
- jgi_summarize_bam_contig_depths program from metabat2
- Python3
mamba create -n strainline
conda activate strainline
mamba install -c bioconda minimap2 spoa samtools dazz_db daligner metabat2 -y
#daccordをダウンロードしてパスを通す
wget https://github.com/gt1/daccord/releases/download/0.0.10-release-20170526170720/daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu.tar.gz
tar -zvxf daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu.tar.gz
ln -s daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu/bin/daccord $HOME/bin/daccord
#本体
git clone https://github.com/xiaoluo91/Strainline.git
cd Strainline/src/
> ./strainline.sh
Usage: ./strainline.sh [options] -i reads.fasta -o out/ -p sequencingPlatform
Full-length De Novo Viral Haplotype Reconstruction from Noisy Long Reads
Author: Xiao Luo
Date: Mar 2021
Input:
reads.fasta: fasta file of input long reads.
out/: directory where to output the results.
sequencingPlatform: long read sequencing platform: PacBio (-p pb) or Oxford Nanopore (-p ont)
Options:
--minTrimmedLen INT: Minimum trimmed read length. (default: 1000)
--topk INT, -k INT: Choose top k seed reads. (default: 50)
--minOvlpLen INT: Minimum read overlap length. (default: 1000)
--minIdentity FLOAT: Minimum identity of overlaps. (default: 0.99)
--minSeedLen INT: Minimum seed read length. (default: 3000)
--maxOH INT: Maximum overhang length allowed for overlaps. (default: 30)
--iter INT: Number of iterations for contig extension. (default: 2)
--maxGD FLOAT: Maximum global divergence allowed for merging haplotypes. (default: 0.01)
--maxLD FLOAT: Maximum local divergence allowed for merging haplotypes. (default: 0.001)
--maxCO INT: Maximum overhang length allowed for contig contains. (default: 5)
--minAbun FLOAT: Minimum abundance for filtering haplotypes (default: 0.02)
--rmMisassembly BOOL: Break contigs at potential misassembled positions (default: False)
--correctErr BOOL: Perform error correction for input reads (default: True)
--threads INT, -t INT: Number of processes to run in parallel (default: 8).
--help, -h: Print this help message.
実行方法
PacBio CLR
./strainline.sh -i Strainline/example/reads.fa -o out -p pb -k 20 -t 32
ONT
./strainline.sh -i Strainline/example/reads.fa -o out -p ont -t 32
引用
Strainline: full-length de novo viral haplotype reconstruction from noisy long reads
Xiao Luo, Xiongbin Kang, Alexander Schönhuth
bioRxiv, Posted July 04, 2021
関連