AlignGraphは、よく似たゲノム配列を使いcontigを伸ばしたり繋いでくれるツール。よく似たゲノム配列が存在するとき、アセンブリして作ったcontigやscaffoldsをさらに伸ばすために使われたりする。
インストール
依存
bowtie2、BLAT、NUCMERはbrewで導入できる。
PBLATは上記リンクからダウンロードして解凍し、makeする。
cd icebert-pblat-e05e284/
make
パスも通しておく。
本体
https://github.com/baoe/AlignGraph
binaryがあるがmacでは動作しない。cent OSに導入した。
ラン
ランにはペアリードのfastqファイルが必要だが、fastaフォーマットにする必要がある。awkとsedで変換しておく。
awk '(NR - 1) % 4 < 2' R1.fq | sed 's/@/>/' > R1.fa
awk '(NR - 1) % 4 < 2' R2.fq | sed 's/@/>/' > R2.fa
100bpx2のペアリードを使うときのラン。
AlignGraph --read1 R1.fa --read2 R2.fa --contig contigs.fa --genome referenve.fa --distanceLow 100 --distanceHigh 1600 --extendedContig extendedContigs.fa --remainingContig remainingContigs.fa [--kMer k --insertVariation insertVariation --coverage coverage --part p --fastMap --ratioCheck --iterativeMap --misassemblyRemoval --resume]
- --read1 is the the first pair of PE DNA reads in fasta format.
- --read2 is the the second pair of PE DNA reads in fasta format.
- --contig is the initial contigs/scaffolds in fasta format.
- --genome is the reference genome in fasta format.
- --distanceLow is the lower bound of alignment distance between the first and second pairs of PE DNA reads (recommended: max{insert length - 1000, single read length}).
- --distanceHigh is the upper bound of alignment distance between the first and second pairs of PE DNA reads (recommended: insert length + 1000).
- --extendedContig is the extended contig/scaffold file in fasta format.
- --remainingContig is the not extended initial contig/scaffold file in fasta format.
結果に影響するいくつかのパラメータがある。
- --kMer is the k-mer size (default: 5).
- --insertVariation is the standard variation of insert length (default: 100).
- --coverage is the minimum coverage to keep a path in de Bruijn graph (default: 20).
- --fastMap calls NUCMER to make fast but less sensitive and accurate contig alignment instead of BLAT (default: none).
- --ratioCheck checks read alignment ratio to the reference beforehand and warns if the ratio is too low; may take a little more time (default: none).
- --iterativeMap aligns reads to one chromosome and then another rather than directly to the genome, which increases sensitivity while loses precision (default: none).
- --misassemblyRemoval detects and then breaks at or removes misassembed regions (default: none).
Eval-AlignGraphはAlignGraphの評価ツール。
作成途中
引用
AlignGraph: algorithm for secondary de novo genome assembly guided by closely related references.
Bao E1, Jiang T1, Girke T1.
Bioinformatics. 2014 Jun 15;30(12):i319-i328