macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

viral quasispeciesのクラスタリング(binning)ツール VirBin

 

 ウイルス集団内の高い遺伝的多様性が、HIVHCVなどのRNAウイルスによる慢性感染症の患者において観察されている(Sullivan et al、2007; PerrinおよびTelenti、1998)。遺伝的多様性は、異なる株の多重感染、または宿主内でのウイルス複製中の変異によって引き起こされる可能性がある。後者の場合、ほとんどのRNAウイルスにおけるウイルスポリメラーゼの忠実度の低さと相まり、複製速度の高さによって同じ宿主に感染する一群の異なるが関連する株をもたらし、それはしばしば「quasispecies」と呼ばれる(Nowak、2006)。 以前の研究では、AIDSなどの慢性ウイルス感染症の患者は、複製プロセス中に生成される可能性が高い新しいウイルス変異体の貯蔵庫であることが多いことが明らかにされている(MacLachlan and Dubovi、2017)。病原性、伝染性、抗ウイルス薬耐性などのように非常に異なる生物学的特性を持つことができるので、ウイルス集団内の遺伝的多様性を特徴付けることは効果的な予防と治療戦略を開発するために非常に重要である。例えば、いくつかの株が抗ウイルス薬耐性を発現している場合、それらは優勢株となり、治療失敗につながる可能性がある。したがって、ウイルス集団の株レベルの多様性の特徴付けは、ウイルスを理解するために不可欠であり、そして臨床的に非常に重要である。
 遺伝的多様性分析のためのウイルスquasispeciesのシーケンシングは、NGS(次世代シーケンシング)技術の最初の応用の一つであった(McElroy et al、2014)。全ゲノムショットガンシークエンシングをウイルスquasispeciesに適用することは培養を必要とせずそして既知のウイルス科からの異なる株をシークエンシングすることができる。従ってそれはquasispeciesの多様性を特徴付けるための好ましい選択となっている。
 シーケンシングされたウイルスquasispeciesを考えると、遺伝的多様性を調べるために様々な種類の分析を行うことができる。比較的簡単な分析は、リファレンスゲノムに対してリードマッピングを実行することによって既知のウイルスの局所的多様性を理解することである。この種の分析は、quasispecies内の株の局所的な変化(突然変異、挿入、または欠失)のコレクションを作ることができるが、複数の遺伝子によって決定される可能性が高い株の生物学的特性を推測することは十分ではない 。特に、ある遺伝子の突然変異が別の遺伝子座での突然変異の表現型の影響を覆い隠すRNAウイルスでは、epistaticな相互作用が豊富である。したがって、株のゲノム規模の再構築は、ウイルスの表現型予測に不可欠である(Töpferet al、2014)。
 quasispecies内のゲノム規模の配列を再構築することは、しばしばゲノム規模のハプロタイプ再構築と呼ばれ、ここでは株のゲノムはハプロタイプと呼ばれる。目的は、シーケンシングされたウイルス集団のショートリードを正しいハプロタイプ配列にアセンブリすることである。リファレンスゲノムが利用可能である場合、最初にローカルな変異を同定し、次いで局所的な変異(または短いコンティグ)をゲノム規模のハプロタイプに分類するためにリードマッピングを行うことができる。高品質のリファレンスゲノムが利用できない場合、SARSコロナウイルスのような新興のウイルスの場合はそうだが、リードマッピングは、すべての変異を同定する効果的な戦略にはならない。従って、リードをハプロタイプに縫合するためには新たなアセンブリが必要である。

 リファレンスゲノムの有無にかかわらず、quasispeciesにおけるゲノム規模のハプロタイプ再構築は依然として計算上困難な問題である。同じquasispeciesにおけるハプロタイプ間の高い類似性およびheterogeneousなゲノムのシーケンシングデプスの深さは、既存のアセンブリプログラムの採用に対する障壁を提示する。最近発表された比較は、試験されたハプロタイプ再構築ツールのどれも、5つのmock HIV quasispecies株をうまく再構築することができなかった(Jayasundara et al、2014)。 IDBA-UD(Peng et al、2012)、IVA(Hunt et al、2015)、SAVAGE(Baaijens et al、2017) 、MLEHaplo(Malhotra et al、2015)など、いくつかの一般的なメタゲノム解析ツールとハプロタイプ構築ツールを比較した場合も同じ結果が得られた。多くの方法は、ゲノムよりはるかに短いさまざまなサイズの一連のコンティグを出力した。アセンブリプログラムからこれらの出力されたコンティグを用いてハプロタイプの数を推論し、そしてそれらの起源のハプロタイプにコンティグを一致させることは依然として課題である。したがって、各グループがハプロタイプを表すように、コンティグを異なるグループにまとめる必要がある。この工程はコンティグスキャフォールドまたはビニングと呼ばれ、細菌株の特徴付けに適用されてきた。
 ウイルスquasispeciesのコンティニングビニングには独自の課題がある。第一に、ビニングの目的は、コンティグを種よりもむしろ異なるウイルス株から区別することである。したがって、テトラヌクレオチド頻度またはGC含有量などの組成に基づく特徴は、通常は高い配列類似性(90%を超える)を共有する異なるハプロタイプからコンティグを分離するのに十分に有益ではない。配列組成に基づく特徴に大きく依存しているツールは、ハプロタイプの数を正しく推定することができないだろう。第二に、RNAウイルスのシーケンシングは遺伝子発現および迅速な分解によって複雑になる傾向があり、したがって、各ハプロタイプ、またはさらにはコンティグに沿って観察されたシーケンシングカバレッジは予想より不均一であり得る。さらに、コンティグが複数のハプロタイプに共通の領域を含む場合、その領域はハプロタイプ特異的セグメントよりも高い適用範囲を有する傾向がある。これらのすべての課題は、コンティニングビニングにカバレッジ情報を使用するために慎重に設計された方法を必要とする。

 多数のコンティニングビニングアルゴリズムが開発されているが、それらは全て同種の異なるウイルス株からコンティグを区別することにおいて限界を有する。マイクロバイオームシーケンスデータ用の既存のコンティグビニングツールのほとんどは細菌用に設計されている。これらの方法は通常、メタゲノムデータを事前に確立されたマーカー遺伝子データベースにアラインメントさせることによってビン数を推定し、次いで配列組成情報を用いてカバレッジレベルを読み取りコンティグを異なるビンに割り当てる。例えば、MaxBin(Wu et al、2014)は、コンティグを異なるビンに割り当てるためにテトラヌクレオチド頻度とコンティグカバレッジレベルの両方を使用している。
 いくつかのビニングツール(Lu et al、2017)は、複数のメタゲノムサンプルにわたって共存する遺伝子を活用している。理論的根拠は、2つのコンティグが同じビンからのものである場合、複数のサンプルにわたるそれらのカバレッジプロファイルは高度に相関しているはずであることである。
 最近、Constrain(Luo et al、2015)やStrainPhlAn(Truong et al、2017)など、メタゲノムデータからのひずみレベル分析のための新しく開発されたツールがいくつかある。どちらもクレード特異的な遺伝子を使った種の同定に頼っている。しかし、どちらのツールも主にバクテリアでテストされている。(一部略)
 ここでは、VirBinというウイルスquasispeciesデータからのコンティグをビニングするために特別に設計された方法を紹介する。 VirBinへの入力は、アセンブリツールから派生した一連のcontigsである。出力には、ハプロタイプの推定数、各ハプロタイプのグループ化されたコンティグ、および対応する相対量が含まれている。複数のサンプルを必要とする多くのバクテリアコンティニングツールとは異なり、本方法は単一のサンプルで機能する。

 

f:id:kazumaxneo:20190727224414j:plain

The pipeline of VirBin.  Preprintより転載。

 

 

インストール

miniconda2.4.0.5環境でテストした(docker使用、ホストOS ubuntu 16.0.4)

依存

  • Install Python 2.7.x
  • Install Python module: networkx, numpy

The whole pipeline

  • Install bowtie2
  • Install samtools
  • Install bcftools
  • blast
#付属シェルスクリプトをそのまま使うなら、古いsamtoolsを入れないと動作しない
conda install samtools==0.1.18-0 -c bioconda -y

Github

git clone https://github.com/chjiao/VirBin.git
cd VirBin/

> python VirBin.py -h

# python VirBin.py -h

usage: VirBin.py [-h] -contig INPUT_CONTIG -align CONTIG_ALIGNMENT -vcf

                 VCF_FILE [-ref REFERENCE_ALIGNMENT] [-bin BIN_NUMBER]

 

VirBin: clustering of viral contigs for quasispecies

 

optional arguments:

  -h, --help            show this help message and exit

  -contig INPUT_CONTIG  input contig file in fasta format

  -align CONTIG_ALIGNMENT

                        alignment between contigs

  -vcf VCF_FILE         reads mapping profile in vcf format

  -ref REFERENCE_ALIGNMENT

                        alignment on reference genomes

  -bin BIN_NUMBER       bin number for distribution of EM, default: 1000

 

 

テストラン

viral quasispeciesのde novo assemblyにはhttps://github.com/chjiao/PEHaploの使用が推奨されている。

 

ここではdata/にあるhiv5_contigs.fa(17contig)をbinningする。

1、mappingしてvcf出力。

cd tools/
sh reads_align_on_contigs.sh

vcfを得る。エラーが出たら手動で行う。

 

2、Alignment between contigs

cd VirBin/
python tools/get_locations_single_blastn.py \
data/hiv5_contigs.fa contig_align.blastn

 contig_align.blastnが出力される。

 

3、Align contigs on reference genomes 

python tools/get_locations_two_fas_blastn.py \
data/hiv5_contigs.fa data/hiv5_references.fa contig_ref_align.blastn

contig_ref_align.blastn が出力される。

 

4、VirBinの実行。クラスター数は自動で決定される。

python VirBin.py \
-contig data/hiv5_contigs.fa \
-align hiv5_contigs_align.blastn \
-vcf data/hiv5_contig_align_0.9.vcf \
-ref contig_ref_align.blastn

 4つのファイルが出力される。クラスター情報が記載されたファイルはEM_clusters.txtになる。

 

引用

A binning tool to reconstruct viral haplotypes from assembled contigs

Jiao Chen, Jiayu Shang, Jianrong Wang, Yanni Sun

bioRxiv preprint first posted online Jul. 16, 2019

 

関連