macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

既知Eukaryotic Virusesのアセンブリツール drVM

 

 ウイルスは地球上で最も豊富な生物学的実体であり、動物、植物、細菌、真菌類を含むあらゆる細胞型の生活の中で発見されている。 4500種以上のウイルス種が発見されてきている(論文執筆時点)。それらの配列情報は研究者によって収集されている[論文より ref.1-3]。ウイルスは人類の歴史において最も劇的で致命的な疾病の流行の一部を引き起こし、ウイルス性疾患の流行は数年ごとに発生する傾向がある。過去20年間で、ヒト集団には鳥インフルエンザH5N1ウイルス、SARSコロナウイルス、H1N1パンデミック、MERSコロナウイルスエボラウイルスジーファウイルスが出現した。このようなアウトブレイクの間に、病原体の同定と比較ゲノム解析は、疾病の監視と疫学にとって基本的な要素である。次世代シークエンシング(NGS)は、血液、糞便、喀痰、および他の綿棒試料を含む様々な試料からのウイルス同定のための魅力的なアプローチとして浮上している[ref,8,9]。この技術は、標的の事前知識なしに、単一のアッセイにおいて潜在的な病原体の同定を可能にする[ref,10]。しかし、クルードなメタゲノムディープシーケンシングリードの計算解析は非常に時間がかかる。

 SURPI [ref.10]およびTaxonomer [ref.11](紹介)は、メタゲノムNGSデータを迅速に分析し包括的な診断アプリケーションを行うように提案されている病原体検出ツールである。しかしながら、両方のツールは完全なウイルスゲノムアセンブリが不可能である。 VIP(簡単な紹介)は、SURPIと同じ戦略を引き出し、識別のためウィルスリード識別前に宿主およびバクテリアのシーケンシングリードを差し引く。これは属以下の分類を可能にするアセンブリの代替戦略でありウィルスアセンブリを改善する可能性のある戦略であるが。 VIPは系統樹を生成し、候補ウイルスと既存のリファレンス配列との間の系統図の可視化を容易にするが、最終レポートではアセンブリされたウイルス配列を生成しない。さらに、SURPIおよびVIPの操作は、ほとんどのラボでの使用を妨げ、多くの場合熟練した人がアクセスできるだけになる。 VirusTAPは、メタゲノミックシーケンシングリードからのウイルスゲノムアセンブリ用のWebベースの統合NGS分析ツールである[ref.13]。このユーザーフレンドリーなツールは、raw NGSデータをアップロードし、いくつかの選択肢をクリックするだけで、ウイルスゲノムをより簡単に取得することができる。ただし、VirusTAPはIlluminaデータのみを受け入れ、データベース更新をサポートしていない。したがって、viral metagenomicsのための計算上効率的で、正確で(競合するウイルスゲノムアセンブリのために)、かつ使い易いツールが急速に必要とされている。

 ここでは、IlluminaまたはIon Torrentのシーケンシング技術によって生成されたNGSのリードをウイルスデータベースに対して迅速に分類し、ウイルスのシーケンシングリードを属グループに分け、最後に属レベルにわけたリードをde novoアセンブリするバイオインフォマティクスパイプラインdrVM (detect and reconstruct known viral genomes from metagenomes)を提示する。配布を容易にするために、drVM用のDockerコンテナ[ref.14]、Amazonマシンイメージ、および仮想マシン[ref.15]イメージが作成された。プラットフォームの性能は、18の独立した研究[8-10,13,16-29]からのSequence Read Archive(SRA)の349個のシーケンスデータの分析で評価された。これらのデータセットには、さまざまなサンプルタイプ、ウイルス、シーケンス深度が含まれている。 drVMは、種々の既知のウイルスゲノムの検出および再構成において非常に熟達しており、同時にSURPI、VIPおよびVirusTAPを含む他の分析用パイプラインよりも優れていることが実証された。

 

 

f:id:kazumaxneo:20180703220721j:plain

drVMのフローチャート。論文より転載。 

 

drVMに関するツイート。


インストール

依存

  • python 2.7
  • blastn
  • g++
  • bz2file
  • screed
  • setuptools
  • khmer

依存が多いので、オーサーらが準備したdockerイメージを使うのが一番簡単。SourceForgeからダウンロードする。SourceForgeにはマニュアルPDF、.ovaファイルもアップされている。

https://sourceforge.net/projects/sb2nhri/files/drVM/ 

docker pull 990210oliver/drvm]

#ここではホストのdocker_share/と仮想環境のhomeとを共有ディレクトリにして立ち上げる
docker run -i -t -v /Users/user/docker_share/:/home 990210oliver/drvm

drVM.py -h

# drVM.py -h

usage:

drVM.py -1 read1.fastq -2 read2.fastq [options]

options:

-type iontorrent [default: illumina]

-dn on/off [digital normalization. default: on]

-t <int> [number of threads, default: 2]

-md <int> [min depth, default: 1]

-ar <float> [alignment rate, default: 0.5 (0.1~0.9)]

-bi <int> [blast identity, default: 80 (50~100)]

-cl <int> [contig length, to keep assembly, default: 3000]

-keep [keep sam file]

Virtual box や VMwareにimportして使える.ovaファイルもダウンロードできます。

 

ラン

マニュアルに記載されているテストデータをアセンブリする。

データベースの準備。

cd /opt/
mkdir VMDB && cd VMDB
wget https://sourceforge.net/projects/sb2nhri/files/drVM/sequence_20160316.tar.gz
tar -zxvf sequence_20160316.tar.gz
#短すぎる配列が入り込んでいるので消す。
seqkit seq -m 500 sequence.fasta > sequence2.fa
CreateDB.py -s sequence2.fa #"killed"のエラーが出たらサイズが大きすぎるからかも
export MyDB='/opt/VMDB'

 fastqをダウンロードし、アセンブリを実行する。

#ダウンロードとペアエンドへの変換を同時に実行。
fastq-dump --split-spot --skip-technical --split-files DRR049387

drVM.py -type illumina -1 DRR049387_1.fastq -2 DRR049387_2.fastq -t 16

 出力ディレクト

f:id:kazumaxneo:20180704130340j:plain

dokcer環境でテストすると、カバレッジプロットファイルが生成されなかった。PDFマニュアルの流れのようにvirtual PC環境で実行した方がいいかもしれない。

 

 

amazon EC2での利用環境も整えられています。PDFマニュアルに書いてあるように、AWSにアクセスして、drVMのコンテナ使えば、スペックに応じて費用は発生しますが最小の手間で解析することも可能です。

 

引用

drVM: a new tool for efficient genome assembly of known eukaryotic viruses from metagenomes
Lin HH, Liao YC.

Gigascience. 2017 Feb 1;6(2):1-10.