ノイズの多いロングリードからの完全長de novoウイルスハプロタイプ再構築を行う Strainline

　多様なウイルスゲノムのHaplotype-resolvedアセンブリは、ウイルス性疾患の予防、制御、治療において重要である。しかし、現在の手法では、比較的正確なショートリードデータしか扱えないか、ハプロタイプ特有の変異をコンセンサス配列に折り畳んでしまうかのどちらかである。本発表では、リファレンスゲノムがないノイズの多いロングリードからウイルスハプロタイプをアセンブルする新しいアプローチ、Strainlineを紹介する。Strainlineは、ノイズの多い第3世代シーケンシングデータから、viral quasispecies を系統ごとに完全長でアセンブルした最初のアプローチである。複雑さや多様性の異なるシミュレーションデータと実データを用いたベンチマークにより、この新規性が確認され、Strainlineの優位性が実証された。

これまでのところ、viral quasispeciesアセンブリのための既存の手法は、一方ではリファレンス配列に基づくアプローチ、他方ではde novoアプローチに分類される。ShoRAH [10], PredictHaplo [11], CliqueSNV [12] などのリファレンスベースの手法は、信頼性の高い株の再構成のために高品質のリファレンスを必要とし、稀な例外を除いて [11, 12] 、主に比較的エラーの少ないショートリードデータの処理に特化してきた。重要なことは、高品質のリファレンスゲノムが、最も必要とされるときに利用できない場合があるということである。既知のウイルスの新しい流行が、キュレーションされたリファレンス配列から大きく逸脱したviral quasispeciesによって引き起こされることが非常によくある[13, 14]。リファレンスガイドの手法はバイアスがかかりやすく、特に関心のあるゲノム領域における重要な変異体関連の詳細については見えない場合がありる[15, 16]。

(一部略)

FALCON [21], Canu [22], Flye [23], Wtdbg2 [24], Shasta [25] など、エラーが起こりやすいロングリードの処理に特化したde novoアセンブリ手法がいくつかあるが、これらのアプローチはいずれも、ハプロタイプ（系統）分解されたゲノム配列を生成することを明確に試みていない。むしろ、これらのアプローチは、混合物中の複数またはすべてのハプロタイプ／系統にわたる要約として、コンセンサス配列を出力することを選択する。つまり、これまでの文献で紹介されているde novoアセンブラは、すべて「汎用（またはコンセンサス）アセンブラ」というカテゴリーに分類される。また、メタゲノム解析のために設計されたmetaFlyeは、種のレベルで動作するため[26]、菌株のレベルで個々のゲノムを解決することはできない。このように、誤ったロングリードからウイルス準種をハプロタイプを考慮して組み立てることは、未だ未解決の問題であり、満足に対処できる手法はない。

　ここでは、この問題を解決するための新しい戦略を追求する。すなわち、本アプローチは、第三世代シーケンシングリードからviral quasispeciesのハプロタイプを正確に再構成する最初のものである。

本手法を簡単に説明すると（詳細は後述）、まず第一段階として、ローカルなde Bruijnグラフベースのアセンブリを行い、エラーを一掃することに取り組む（エラーコレクション）。その後、ハプロタイプに特化したコンティグ（haplotigs）を全長ハプロタイプに反復的に拡張するオーバーラップグラフベースのスキームに注目する。この手法では、アーチファクトを除去し、真の配列を保存するフィルタリングの後、完全長に達したと思われるハプロタイプのセットと、そのハプロタイプの混合物中の相対的な存在量が出力される。

　文献で先に承認されている様々なウイルスデータセットで本アプローチを評価した。各データセットでは、最も一般的な2種類のTGSリードとして、PacBio CLRリードとONTリードの両方を処理した。シミュレーションデータと実データを用いたベンチマークの結果、本アプローチは、すべての完全長ハプロタイプを正確に再構成し、その相対的な存在量を十分に正確に推定できることが確認された。また、本アプローチと現在の技術水準との比較も行った。どのアプローチも、ロングリードからの系統分離されたviral quasispeciesアセンブリの問題を明確に解決していないが、本アプローチは、現状を大幅に上回る性能を示した。我々のアプローチは、ハプロタイプカバレッジの点で最も優れており、大半のデータセットでほぼ100%に達した。他の手法では、60～85%を超えることはなかった（達したとしても、特にONTデータでは、他の手法はかなり早く限界に達した）。さらに、アセンブリの連続性（N50またはNGA50で測定）と精度（低いエラーレートとミスアセンブルコンティグの少なさで表現）にも大きな利点があった。SARS-CoV-2のハプロタイプ分解ゲノムのアセンブリは、現在特に興味深い応用シナリオである。なぜなら、ハプロタイプ分解ゲノムアセンブリによって、ウイルスの突然変異率や進化的発展についての理解が深まるからである。このシナリオでも、本アプローチは、既存のすべてのアプローチに比べ、かなり大きなマージンをもって優れていることを実証している。

インストール

ubuntu18でcondaで環境を作ってテストした。

依存

Strainline relies on the following dependencies:

minimap2
daccord
samtools
spoa
jgi_summarize_bam_contig_depths program from metabat2
Python3

Gihtub

mamba create -n strainline -y
conda activate strainline
mamba install -c bioconda minimap2 spoa samtools dazz_db daligner metabat2 -y

#daccordの実行形式ファイルをダウンロードし、condaの仮想環境のbin/に配置する。
wget https://github.com/gt1/daccord/releases/download/0.0.10-release-20170526170720/daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu.tar.gz
tar -zvxf daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu.tar.gz 
ln -fs $PWD/daccord-0.0.10-release-20170526170720-x86_64-etch-linux-gnu/bin/daccord /path/to/envs/strainline/bin/daccord

> ./src/strainline.sh

Usage: ./strainline.sh [options] -i reads.fasta -o out/ -p sequencingPlatform

Full-length De Novo Viral Haplotype Reconstruction from Noisy Long Reads

Author: Xiao Luo

Date: Mar 2021

Input:

reads.fasta: fasta file of input long reads.

out/: directory where to output the results.

sequencingPlatform: long read sequencing platform: PacBio (-p pb) or Oxford Nanopore (-p ont)

Options:

--minTrimmedLen INT: Minimum trimmed read length. (default: 1000)

--topk INT, -k INT: Choose top k seed reads. (default: 100)

--minOvlpLen INT: Minimum read overlap length. (default: 1000)

--minIdentity FLOAT: Minimum identity of overlaps. (default: 0.99)

--minSeedLen INT: Minimum seed read length. (default: 3000)

--maxOH INT: Maximum overhang length allowed for overlaps. (default: 30)

--iter INT: Number of iterations for contig extension. (default: 2)

--maxGD FLOAT: Maximum global divergence allowed for merging haplotypes. (default: 0.01)

--maxLD FLOAT: Maximum local divergence allowed for merging haplotypes. (default: 0.001)

--maxCO INT: Maximum overhang length allowed for contig contains. (default: 5)

--minAbun FLOAT: Minimum abundance for filtering haplotypes (default: 0.02)

--rmMisassembly BOOL: Break contigs at potential misassembled positions (default: False)

--correctErr BOOL: Perform error correction for input reads (default: True)

--dsim FLOAT: Look for alignments with this percent similarity in Daligner. (default: 0.85)

--threads INT, -t INT: Number of processes to run in parallel (default: 8).

--help, -h: Print this help message.

テストラン

FASTA形式のロングリードを指定する。

#pacbio CLR
./src/strainline.sh -i example/reads.fa -o out -p pb -k 20 -t 32

#ONT
./src/strainline.sh -i example/reads.fa -o out -p ont -t 32

-t Number of processes to run in parallel (default: 8).
-p pb long read sequencing platform: PacBio
-p ont long read sequencing platform: Oxford Nanopore
-k Choose top k seed reads. (default: 100)

out/

f:id:kazumaxneo:20220128012231p:plain

論文のMethodのセクションには、"de Bruijnグラフベースのアプローチは、エラー率が高いため、TGSリードデータには不適切な傾向があります。しかし、意外なことに、もともと長いゲノム用に開発されたde Bruijnグラフベースのアプローチが、十分なカバレッジがあれば、数万ヌクレオチドの長さのゲノムにも有効であることが判明しました。どうやら、ウイルスゲノムを扱う際のこのアプローチの優位性は、以前は気づかれていなかったようだ"、とあります。

たしかにその通りかと思います。De Bruijnグラフベースのアセンブリがロングリードで機能しないのは、エラー率の高さに対してカバレッジが100x程度と少ないことが主要な理由であることは、k-merのヒストグラムを調べれば明らかです。ウィルスのシークエンシングなら数万カバレッジ得ることは難しくないのでこの発想が出てくるわけですね。

このツールは半年前に一度紹介しましたが、論文が出たので改めて紹介しています。

引用

Strainline: full-length de novo viral haplotype reconstruction from noisy long reads
Xiao Luo, Xiongbin Kang & Alexander Schönhuth
Genome Biology volume 23, Article number: 29 (2022)