macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ウィルスゲノムのde novo assemblyツール IVA

RNAウィルスのシーケンスでは、逆転写やPCR増幅のbiasにより極めて不均一なカバレッジになってしまうことが知られている。1本の鎖の中のカバレッジが大きく変動するため、一般のde brujinグラフのアセンブルツールはもとより、鋳型量が異なるmRNAやメタゲノム向けのアセンブルも、それだけではRNAウィルスのアセンブルに完全には対応できないと考えられる(カバレッジが大きく変化する箇所で切れる)。IVAは極端にカバレッジが変動し、また高度にヘテロガスな状態のRNAウィルス向けに開発されたde novo assemblyの方法論である。ペアリード情報を使うため、入力はペアリードである必要がある。

de novo アセンブリのツールはアセンブリ以外のプロセスは行わないツールも多いが、IVAは、イルミナのアダプターとPCRプライマーのトリミングから、final contigの出力まで1つのフローで行うことができる。

 

マニュアル

https://github.com/sanger-pathogens/iva/wiki

 

ダウンロード

macにインストールする場合、virtual machineに導入することが推奨されている。試しにmac OS10.12に直接インストールすると、ラン途中のシェルスクリプトでエラーを起こした。最終的にcent OS6サーバーにインストールした。

 

Python3環境と以下のツールが必要である。

  • kmc 
  • smalt
  • samtools
  • MUMmer

kmcは上記リンクからmac向けのbinaryをダウンロードしてパスを通す。他はbrewで導入できる。

  

本体

pipで導入する。

pip3 install iva

iva -hでヘルプ。

テストラン

iva --test outdir 

user]$ iva --test outdir

Running iva in test mode...

Copied input test files into here: /home/disk1/uesaka/mizutani/outdir

Current working directory: /home/disk1/uesaka/mizutani/outdir

Running iva on the test data with the command:

/usr/local/python/bin/iva --threads 1 --pcr_primers hiv_pcr_primers.fa -f reads_1.fq.gz -r reads_2.fq.gz iva.out

Finished running iva

Looks OK. Final output contigs file is: /home/disk1/uesaka/mizutani/outdir/iva.out/contigs.fasta

/outdir/iva.out/にcontig.fastaができる。 

 

実行方法

ペアエンドfastqを指定してラン。

iva -f reads_1.fastq -r reads_2.fastq Ouptut_dir --threads 8 -v
  • -v Be verbose by printing messages to stdout. Use up to three times for increasing verbosity.
  • -t INT Number of threads to use [1] 

 

インターレースのペアエンドfastqを指定してラン。

iva --fr reads.fastq Ouptut_dir --threads 8 -v 

 

 

引用

IVA: accurate de novo assembly of RNA virus genomes

Hunt M, Gall A, Ong SH, Brener J, Ferns B, Goulder P, Nastouli E, Keane JA, Kellam P, Otto TD

Bioinformatics. 2015 Jul 15;31(14):2374-6