macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ウイルスバリアント解析のための統合アプリケーション MALVIRUS

 

 COVID-19のパンデミックでも示されたように、日々増加する複数のウイルス株のシーケンスデータから効率的にバリアントをコールできることは、世界中に広がるウイルス株を追跡するために最も重要なことである。
 SARS-CoV-2のようなウイルス集団の解析に必要な複数の作業を支援する、インストールが簡単で使いやすいアプリケーション、MALVIRUSを紹介する。(1) 集団配列から変異(SNP/indel)カタログを作成し、(2) 読み取ったサンプルに対応するカタログの変異を効率的にジェノタイピングし、アノテーションを行うことができる。イルミナとナノポアのサンプルを用いたテストにより、SARS-CoV-2株サンプルの解析におけるMALVIRUSの効率と有効性が、NCBIが提供する一般公開データおよびGISAIDが提供するより完全なデータセットに関しても証明された。最新のツールとの比較では、MALVIRUSは常により正確で、多くの場合、より良い再現性を持っていることが示された。

 

レポジトリより

MALVIRUSは、ハプロイド個体のジェノタイピングを高速かつ正確に行うツールで、前もってリードのアセンブルやリファレンスゲノムへのマッピングは必要ありません。ウイルスデータ(SARS-CoV-2を含むがこれに限定されない)を扱うように調整されており、数分でシーケンスデータから直接個々のジェノタイピングすることができます。

 

インストール

Ubuntu 18.04で開発およびテストされているが、dockerがあれば他のOSでも動作する。

Github

#dockerhub(link)
docker pull algolab/malvirus

 

 

 

実行方法

イメージから立ち上げる。

docker run -p 56733:80 --mount type=volume,source=malvirus_jobs,target=/jobs algolab/malvirus

http://localhost:56733/にアクセスする

(* URLのlocalhostをMALVIRUSが動作しているシステムのIPアドレスに置き換えると、複数のユーザーが同じMALVIRUSインスタンスにアクセスできる)

 

MALVIRUSは、アセンブリのセットからバリアントカタログを作成するステップと、ジェノタイプコーリングを行うステップに分かれている。最初のステップはmafftとsnp-sites に基づいており、2番目のステップはKMC、MALVA、SnpEffがベースに使用されている。バリアントカタログは一度構築すれば、複数の個体のジェノタイピングに繰り返し利用できる。

 

1、Build a new Reference

Reference VCFタブを選択する。

初めにリファレンスとユーザーのリファレンスを比較して既知のバリアントカタログを作成する。(新しい変異株だけに見つかるバリアントを迅速に見つけるため)。

Build a new Reference VCF from genomesボタンをクリックする。

 

このような画面が表示される。

チュートリアルのように入力する。ただしチュートリアルのデータは場所と名前が変わっていたりする。レポジトリrootのsnakemake/example/にあるファイルを使用する。NC_045512.2.faとGCF_009858895.2_ASM985889v3_genomic.gffがゲノムのアノテーションのセット。リファレンスにはこれらを指定する。poppulation FASTAにはpusedoreference.faを指定する。

 

custom referenceを選択するとgffも指定できるようになる。

NC_045512.2.faとGCF_009858895.2_ASM985889v3_genomic.gffを指定した。
最後にsubmitする。

 

ジョブが完了するとcompleteに変わる。

 

結果

 

既知のバリアントリストはVCF形式でダウンロードできる。

 

 

2、Genotype Calling

続いてVariant callsタブに移動し、Perform a new variant callボタンをクリック。

 

Perform a new variant callをクリック。ファイルなどを入力する画面が出てくる。

解析したいfastqファイルを指定する。画面中央のReference VCFでは、1で作った既知VCFが選べる(nameで設定した名前が表示される)。fastqはARTIC v1プロトコルを用いたマレーシアSARS-CoV-2のイルミナシーケンスデータ(SRR11514750.fastq)となっている。

 

submitした。テストデータでは数秒で終了した。


ジョブはvariant callタブで一覧表示される。

 

ページ上部のリンクをクリックすると、VCF形式とExcel形式の両方のデータをダウンロードすることができる。

 

MALVIRUSは、プリロードされたリファレンスが使用されている場合、SnpEffを使用してバリアント効果のアノテーションを行うこともできる。チュートリアルを確認してください。

 

引用

MALVIRUS: an integrated application for viral variant analysis
Simone Ciccolella, Luca Denti, Paola Bonizzoni, Gianluca Della Vedova, Yuri Pirola & Marco Previtali 
BMC Bioinformatics volume 22, Article number: 625 (2021)