IVA (Iterative Virus Assembler)はウィルス用のDNAアセンブラ。2015年に発表された。カバレッジが大きく変動するウィルスゲノムのアセンブルに対応しているとされる。入力データはilluminaのペーアドエンドである。前もって作ったcontigからscaffoldを作ったり、リファレンスゲノムと比較する機能も備える。
公式サイト( サンガー研)
マニュアル
https://github.com/sanger-pathogens/iva/wiki
インストール
macではテストランのbashのスクリプト処理時にエラーが出たのでcent OS6にインストールした。
先に依存関係をインストール。
- Python 3 version 3.3 or higher (IVA is written in Python 3)
- KMC installed, so that
kmc
andkmc_dump
are in your path. - MUMmer installed with its executables (ie
nucmer
etc) in your path. - Samtools installed, so that
samtools
is in your path. - SMALT installed, so that
smalt
is in your path. - Optional: Trimmomatic - although this is optional,
samtools、kmc、smalt、blast+、Trimmomatic はbrewで導入できる。
brew install samtools
brew install mummer
brew install kmc
brew install smalt
brew install Trimmomatic
本体はpip3で導入する。
pip3 install iva
実行方法
はじめにテストランを行う。
iva --test outdir
自動でfastqがダウンロードされアセンブルが実行される。動いているコマンドは以下のとおりである。
/bin/iva --threads 1 --pcr_primers hiv_pcr_primers.fa -f reads_1.fq.gz -r reads_2.fq.gz iva.out
上のhiv_pcr_primers.faは以下のようなプライマー配列のファイル。
outdir]$ head -8 hiv_pcr_primers.fa
>Pan-HIV-1_1F.1
AGCCCGGGAGCTCTCTG
>Pan-HIV-1_1F.2
AGCCTGGGAGCTCTCTG
>Pan-HIV-1_1R.1
CCTCCAATTCCCCCTATCATTTT
>Pan-HIV-1_1R.2
CCTCCAATTCCTCCTATCATTTT
プライマーを明示してアセンブル前に除去する。
ランにエラーがなければ、/outdir/iva.outにcontig.fastaができる。 テストデータのリファレンスのゲノムは1つのセグメントから構成されているが、アセンブルされたconitgは二つのcontigまでアセンブルされていた。
実際のランは以下のように行う。
iva --threads 12 -f R1.fastq -r R2.fastq <Output_directory>
- --threads
- --max_insert
- -f Name of forward reads fasta/q file [.gz].
- -r Name of reverse reads fasta/q file [.gz].
- -fr ame of interleaved fasta/q file [.gz].
- -k kmer hash length in SMALT (the -k option in smalt index) [19]
- -s kmer hash step size in SMALT (the -s option in smalt index) [11]
- -y FLOAT Minimum identity threshold for mapping to be reported (the -y option in smalt map) [0.5].
- -i Maximum insert size (includes read length). Reads with inferred insert size more than the maximum will not be used to extend contigs [800].
ラン中は画面更新がないので、初めて行うとき不安かもしれない。そうゆう人は小さなデータで一度テストしてみると良いかもしれない。正常に終わると指定したディレクトリにcontigファイルができる。
IVAのランにはイルミナのPCRプライマー配列とindexを除去したリードを使うのが望ましいが、除去されていない場合はTrimmomaticで除去してランできる(Trimmomaticがインストールされている必要あり)。
PCRプライマー配列をfastaフォーマットで明示してトリミング。
iva --trimmomatic /path/to/trimmomatic-0.32.jar --pcr_primers primers.fasta --fr R1R2.fastq <Output_directory>
アダプター配列も明示してトリミングを実行。
iva --trimmomatic /path/to/trimmomatic-0.32.jar \
--adapters adapters.fasta \
--pcr_primers primers.fasta \
--fr R1R".fastq <Output_directory>
contig配列を指定してラン。
iva --contigs contigs.fasta --fr R1R2.fastq <Output_directory>
引用
IVA: accurate de novo assembly of RNA virus genomes
Martin Hunt, Astrid Gall, Swee Hoe Ong, Jacqui Brener, Bridget Ferns, Philip Goulder, Eleni Nastouli, Jacqueline A. Keane, Paul Kellam, and Thomas D. Otto
Bioinformatics. 2015 Jul 15; 31(14): 2374–2376.