macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Reference-assisted assembly4 AlignGraph

 

AlignGraphは、よく似たゲノム配列を使いcontigを伸ばしたり繋いでくれるツール。よく似たゲノム配列が存在するとき、アセンブリして作ったcontigやscaffoldsをさらに伸ばすために使われたりする。

 

 

インストール

依存

bowtie2、BLAT、NUCMERはbrewで導入できる。

PBLATは上記リンクからダウンロードして解凍し、makeする。

cd icebert-pblat-e05e284/
make

パスも通しておく。

 

本体

Github

https://github.com/baoe/AlignGraph

binaryがあるがmacでは動作しない。cent OSに導入した。

 

 

ラン

ランにはペアリードのfastqファイルが必要だが、fastaフォーマットにする必要がある。awksedで変換しておく。

awk '(NR - 1) % 4 < 2' R1.fq | sed 's/@/>/' > R1.fa
awk '(NR - 1) % 4 < 2' R2.fq | sed 's/@/>/' > R2.fa

 

100bpx2のペアリードを使うときのラン。

AlignGraph --read1 R1.fa --read2 R2.fa --contig contigs.fa --genome referenve.fa --distanceLow 100 --distanceHigh 1600 --extendedContig extendedContigs.fa --remainingContig remainingContigs.fa [--kMer k --insertVariation insertVariation --coverage coverage --part p --fastMap --ratioCheck --iterativeMap --misassemblyRemoval --resume]

 

  • --read1 is the the first pair of PE DNA reads in fasta format.
  • --read2 is the the second pair of PE DNA reads in fasta format.
  • --contig is the initial contigs/scaffolds in fasta format.
  • --genome is the reference genome in fasta format.
  • --distanceLow is the lower bound of alignment distance between the first and second pairs of PE DNA reads (recommended: max{insert length - 1000, single read length}).
  • --distanceHigh is the upper bound of alignment distance between the first and second pairs of PE DNA reads (recommended: insert length + 1000).
  • --extendedContig is the extended contig/scaffold file in fasta format.
  • --remainingContig is the not extended initial contig/scaffold file in fasta format.

 

 

結果に影響するいくつかのパラメータがある。

  • --kMer is the k-mer size (default: 5).
  • --insertVariation is the standard variation of insert length (default: 100).
  • --coverage is the minimum coverage to keep a path in de Bruijn graph (default: 20).
  • --fastMap calls NUCMER to make fast but less sensitive and accurate contig alignment instead of BLAT (default: none).
  • --ratioCheck checks read alignment ratio to the reference beforehand and warns if the ratio is too low; may take a little more time (default: none).
  • --iterativeMap aligns reads to one chromosome and then another rather than directly to the genome, which increases sensitivity while loses precision (default: none).
  • --misassemblyRemoval detects and then breaks at or removes misassembed regions (default: none).

 

Eval-AlignGraphはAlignGraphの評価ツール。

 

 

作成途中

 

引用

AlignGraph: algorithm for secondary de novo genome assembly guided by closely related references.

Bao E1, Jiang T1, Girke T1.

Bioinformatics. 2014 Jun 15;30(12):i319-i328