macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

de novoアセンブルしてバリアントをコールするDISCOVAR

 

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental duplications)の検出は困難とされる。DISCOVARはそうした難しい構造変化を検出するために構築されたと書かれている。ただし現在のバージョンではトリッキーな方法を使わないと50-Mb以上のゲノムをアセンブルすることはできない。どちらかといえばスモールゲノム向けのツールになっている。

バリアント検出の過程でアセンブルを行うため、アセンブルに用いることも可能である(DISCOVAR de novo)。

 

公式サイト

https://software.broadinstitute.org/software/discovar/blog/?page_id=98

マニュアル

https://docs.google.com/document/d/1U_o-Z0dJ0QKiJn86AV2o_YHiFzUtW9c57eh3tYjkINc/edit

 入力はilluminaでシーケンスした250-bp以上でインサートサイズが450くらいのペアリードfastq。サンプルはPCR freeのプロトコルで調整されたデータが望ましいとされる。カバレッジも条件があり、60前後がベストと書かれている。条件を箇条書きしておく。

  • Illumina MiSeq or HiSeq 2500 genome sequencers
  • PCR-free library preparation
  • 250 base paired end reads (or longer)
  • ~450 base pair fragment size
  • ~60x coverage

アセンブルできるサイズは50-Mbまでに制限されている。

 

インストール

依存

全てbrewで導入できる。

 brewでインストールする。macでもbrewでインストールできるが、原因不明の理由で失敗する。ソースからビルドするためのマニュアルもリンクが消えていたので、cent OSにbrewを使いインストールした。

brew install DISCOVAR

 

実行方法

1、リファンレンスを準備。

PrepareDiscovarGenome REF=reference.fasta

faiファイルといくつか関連するファイルができる。

 

2、bamにマッピングされたペアリードを抽出し、de novoアセンブルを実行するその後バリアントをコールする。

Discovar READS=bam OUT_HEAD=asssembly REGIONS=all REFERENCE=reference.fa TMP=temp 

コンマセパレートで複数bamを入力できる。READS=filename1,filename2,...

 

アセンブルがが終わるとassembly~がいくつかできる。(アセンブルできるサイズは50-Mbまで)。REGIONS=all にするとかなりのメモリが要求される。カバレッジx100のゲノム(4メガ)でランすると、peak memory uisageは114GBに達した。

領域を指定するにはREGIONS=1:50000-150000などと記載する(chr1の50000-150000の領域を探索)。regionは複数指定できるようになっている(e.g., REGIONS=chr:start-end,chr:start-end,...)。

 

3、アセンブルのgraphを可視化する(オプション)

dot -Tps -o assembly.final.ps assembly.final.dot -v
gv assembly.final.ps

 

 公式マニュアルでは、大きなゲノムを解析するために、少しづつ領域をオーバーラップしながらランする方法が書かれています。興味がある人は確認してみてください。アセンブルのgraphについての勉強にもなると思います。

de novo アセンブルによる構造変化検出ツールとして2015年にpublishされたfermikitなどがあります。

 

引用

Comprehensive variation discovery in single human genomes

Neil I Weisenfeld, Shuangye Yin, Ted Sharpe, Bayo Lau, Ryan Hegarty, Laurie Holmes, Brian Sogoloff, Diana Tabbaa, Louise Williams, Carsten Russ, Chad Nusbaum, Eric S Lander, Iain MacCallum & David B JaffeNeil I Weisenfeld, Shuangye Yin, Ted Sharpe, Bayo Lau, Ryan Hegarty, Laurie Holmes, Brian Sogoloff, Diana Tabbaa, Louise Williams, Carsten Russ, Chad Nusbaum, Eric S Lander, Iain MacCallum & David B Jaffe

Nature Genetics 46, 1350–1355 (2014) doi:10.1038/ng.3121