macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ノイズの多いロングリードからの完全長de novoウイルスハプロタイプ再構築を行う Strainline

 

 非常に多様なウイルスゲノムのハプロタイプを解決したデノボアセンブリは、ウイルス疾患の予防、制御、治療に不可欠である。現在の方法では、比較的精度の高いショートリードデータしか扱えないか、ハプロタイプ特有の変異をコンセンサス配列に折り込んでしまうかのどちらかである。ここでは、リファレンスゲノムがなくノイズの多いロングリードからウイルスのハプロタイプアセンブルする新しいアプローチであるStrainlineを紹介する。Strainlineは、ノイズの多い第三世代シーケンサーのデータから、ウイルス準種の株を解像した完全長のde novoアセンブリを提供する初めてのアプローチである。様々な複雑さと多様性を持つシミュレーションデータと実際のデータの両方を用いたベンチマーク実験では、関連する基準の観点から、Strainlineが最先端の技術と比較して優れていることが示され、この新規性が確認された。

 

インストール

依存

  • minimap2
  • daccord
  • samtools
  • spoa
  • jgi_summarize_bam_contig_depths program from metabat2
  • Python3

Github

mamba create -n strainline
conda activate strainline
mamba install -c bioconda minimap2 spoa samtools dazz_db daligner metabat2 -y

#daccordをダウンロードしてパスを通す
wget https://github.com/gt1/daccord/releases/download/0.0.10-release-20170526170720/daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu.tar.gz
tar -zvxf daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu.tar.gz
ln -s daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu/bin/daccord $HOME/bin/daccord

#本体
git clone https://github.com/xiaoluo91/Strainline.git
cd Strainline/src/

> ./strainline.sh 

Usage: ./strainline.sh [options] -i reads.fasta -o out/ -p sequencingPlatform

 

Full-length De Novo Viral Haplotype Reconstruction from Noisy Long Reads

 

Author: Xiao Luo

Date:   Mar 2021

 

Input:

reads.fasta:                      fasta file of input long reads.

out/:                             directory where to output the results.

sequencingPlatform:               long read sequencing platform: PacBio (-p pb) or Oxford Nanopore (-p ont)

 

Options:

--minTrimmedLen INT:              Minimum trimmed read length. (default: 1000)

--topk INT, -k INT:               Choose top k seed reads. (default: 50)

--minOvlpLen INT:                 Minimum read overlap length. (default: 1000)

--minIdentity FLOAT:              Minimum identity of overlaps. (default: 0.99)

--minSeedLen INT:                 Minimum seed read length. (default: 3000)

--maxOH INT:                      Maximum overhang length allowed for overlaps. (default: 30)

--iter INT:                       Number of iterations for contig extension. (default: 2)

--maxGD FLOAT:                    Maximum global divergence allowed for merging haplotypes. (default: 0.01)

--maxLD FLOAT:                    Maximum local divergence allowed for merging haplotypes. (default: 0.001)

--maxCO INT:                      Maximum overhang length allowed for contig contains. (default: 5)

--minAbun FLOAT:                  Minimum abundance for filtering haplotypes (default: 0.02)

--rmMisassembly BOOL:             Break contigs at potential misassembled positions (default: False)

--correctErr BOOL:                Perform error correction for input reads (default: True)

--threads INT, -t INT:            Number of processes to run in parallel (default: 8).

--help, -h:                       Print this help message.

 

 

 実行方法

PacBio CLR

./strainline.sh -i Strainline/example/reads.fa -o out -p pb -k 20 -t 32

 

ONT

./strainline.sh -i Strainline/example/reads.fa -o out -p ont -t 32

 

引用

Strainline: full-length de novo viral haplotype reconstruction from noisy long reads
Xiao Luo, Xiongbin Kang, Alexander Schönhuth

bioRxiv, Posted July 04, 2021

 

関連