macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ウィルスゲノムのアセンブルツール IVA (Iterative Virus Assembler)

 

  IVA (Iterative Virus Assembler)はウィルス用のDNAアセンブラ。2015年に発表された。カバレッジが大きく変動するウィルスゲノムのアセンブルに対応しているとされる。入力データはilluminaのペーアドエンドである。前もって作ったcontigからscaffoldを作ったり、リファレンスゲノムと比較する機能も備える。

 

公式サイト( サンガー研)


マニュアル

https://github.com/sanger-pathogens/iva/wiki

 

インストール

macではテストランのbashスクリプト処理時にエラーが出たのでcent OS6にインストールした。 

 

先に依存関係をインストール。

  • Python 3 version 3.3 or higher (IVA is written in Python 3)
  • KMC installed, so that kmc and kmc_dump are in your path.
  • MUMmer installed with its executables (ie nucmer etc) in your path.
  • Samtools installed, so that samtools is in your path.
  • SMALT installed, so that smalt is in your path.
  • Optional: Trimmomatic - although this is optional,

samtools、kmc、smalt、blast+、Trimmomatic はbrewで導入できる。

brew install samtools
brew install mummer
brew
install kmc
brew install smalt
brew install Trimmomatic

 本体はpip3で導入する。

pip3 install iva

 

 

 ラン

 はじめにテストランを行う。

iva --test outdir

 自動でfastqがダウンロードされアセンブルが実行される。動いているコマンドは以下のとおりである。

 /bin/iva --threads 1 --pcr_primers hiv_pcr_primers.fa -f reads_1.fq.gz -r reads_2.fq.gz iva.out

上のhiv_pcr_primers.faは以下のようなプライマー配列のファイル。

outdir]$ head -8 hiv_pcr_primers.fa 

>Pan-HIV-1_1F.1

AGCCCGGGAGCTCTCTG

>Pan-HIV-1_1F.2

AGCCTGGGAGCTCTCTG

>Pan-HIV-1_1R.1

CCTCCAATTCCCCCTATCATTTT

>Pan-HIV-1_1R.2

CCTCCAATTCCTCCTATCATTTT

プライマーを明示してアセンブル前に除去する。

ランにエラーがなければ、/outdir/iva.outにcontig.fastaができる。 テストデータのリファレンスのゲノムは1つのセグメントから構成されているが、アセンブルされたconitgは二つのcontigまでアセンブルされていた。

 

 

実際のランは以下のように行う。

iva --threads 12 -f R1.fastq -r R2.fastq <Output_directory>
  • --threads
  • --max_insert
  • -f  Name of forward reads fasta/q file [.gz].
  • -r Name of reverse reads fasta/q file  [.gz].
  • -fr ame of interleaved fasta/q file [.gz].
  • -k kmer hash length in SMALT (the -k option in smalt index) [19]
  • -s kmer hash step size in SMALT (the -s option in smalt index) [11]
  • -y FLOAT Minimum identity threshold for mapping to be reported (the -y option in smalt map) [0.5].
  • -i Maximum insert size (includes read length). Reads with inferred insert size more than the maximum will not be used to extend contigs [800].

ラン中は画面更新がないので、初めて行うとき不安かもしれない。そうゆう人は小さなデータで一度テストしてみると良いかもしれない。正常に終わると指定したディレクトリにcontigファイルができる。

 

 

IVAのランにはイルミナのPCRプライマー配列とindexを除去したリードを使うのが望ましいが、除去されていない場合はTrimmomaticで除去してランできる(Trimmomaticがインストールされている必要あり)。

 

PCRプライマー配列をfastaフォーマットで明示してトリミング。

iva --trimmomatic /path/to/trimmomatic-0.32.jar --pcr_primers primers.fasta --fr R1R2.fastq <Output_directory> 

アダプター配列も明示してトリミングを実行。

iva --trimmomatic /path/to/trimmomatic-0.32.jar \
--adapters adapters.fasta \
--pcr_primers primers.fasta \
--fr R1R".fastq <Output_directory>

contig配列を指定してラン。

iva --contigs contigs.fasta --fr R1R2.fastq <Output_directory>

 

 

 

引用

IVA: accurate de novo assembly of RNA virus genomes

Martin Hunt,1,* Astrid Gall,1 Swee Hoe Ong,1 Jacqui Brener,2 Bridget Ferns,3 Philip Goulder,2 Eleni Nastouli,4 Jacqueline A. Keane,1 Paul Kellam,1,3 and Thomas D. Otto1,*

Bioinformatics. 2015 Jul 15; 31(14): 2374–2376.