ショートリードからのゲノムアセンブリは、複雑な計算上の問題である。この課題に取り組むために、数多くのゲノムアセンブラが開発されている(論文より ref.1-5)。典型的には、シーケンス中にある程度の異種性(例えば、一倍体でない生物、細胞または個体の集団など)が存在する場合、単一の参照配列が回収される。高度に多型性である非一倍体生物のケースでは、標準的なゲノムアセンブラーは、予想されるより大きな合計サイズ(ref.6,7)を有する断片化アセンブリを産生する。これは、ショートリードは、一般的に、ヘテロ接合領域において異なるハプロタイプを正確に回復するには不十分であり、これは代替コンティグとして報告されるからである。対照的に、2つの相同染色体からのホモ接合(または低ヘテロ接合)領域は、単一のコンティグに崩壊する。これらの2つのタイプのコンティグ間の境界は、一意のパスによって解決できないため、リンクされない。最終結果は、典型的に高度に断片化され、重複したコンティグ(すなわち、相同染色体の同一領域)を含むアセンブリである。そのようなアセンブリは、遺伝子予測(すなわち、断片化遺伝子モデル、見掛けのパラログ)から比較ゲノム解析(すなわち、明らかな重複ブロック、シンテニーブレイク)までの下流分析を誤解させる。(以下略)
多くのゲノムは、高レベルのヘテロ接合性(すなわち、同種の染色体における同じ座での異なる対立遺伝子の存在)を示し、ハイブリッド生物のそれは極端な場合である。ショートリードから高度にヘテロ接合なゲノムをアセンブルすることは、異なるハプロタイプを正確に回復することが困難であるため、難しい作業となる。高度にヘテロ接合のゲノムに直面する場合、標準的なアセンブリプロセスは、ホモ接合領域を崩壊させる傾向があり、代替コンティグにおいてヘテロ接合領域を報告する。ホモ接合領域とヘテロ接合領域との間の境界は、解決しにくい複数のアセンブリ経路をもたらし、予想より大きい全体サイズを有する高度に断片化されたアセンブリにつながる。これは、断片化された遺伝子モデル、誤った遺伝子コピー数、または壊れたシンテニーなどの下流分析において、多くの問題を引き起こす。これらの注意点を回避するために、著者らは、ヘテロ接合体を認識し、選択的に除去するステップを導入することによって、ヘテロ接合体ゲノムの集合体を具体的に扱うパイプラインRedundansを開発した。
インストール
ubuntu14.04に導入した。
依存
- Python 2.7 or 2.6
- Perl [SSPACE3]
- make, gcc & g++ [BWA & LAST]
- zlib including zlib.h headers [BWA]
- numpy and matplotlib (optional)
- Platanus
- LAST v800+
- BWA v0.7.12+
- SNAP aligner
- SSPACE3
- GapCloser
- pyScaf
- FastaIndex
本体 Github
https://github.com/lpryszcz/redundans
上の依存も含めてgithubからcloneし、ビルドする。
git clone --recursive https://github.com/lpryszcz/redundans.git
cd redundans && bin/.compile.sh
> python redundans.py
dockerによるインストールもサポートされています(Github)。
ラン
Redundansはどのようなデータの組み合わせでもアセンブルしてホモ接合のアセンブリ scaffolds.filled.fa を出力してくれる。具体的には以下の配列を自由に組み合わせることが可能。
- assembled contigs (FastA)
- paired-end and/or mate pairs reads (FastQ*)
- long reads (FastQ/FastA*) - both PacBio and Nanopore are supported
- and/or reference chromosomes/contigs (FastA).
付属のテストデータをランする。
./redundans.py -v -i test/*_?.fq.gz -f test/contigs.fa -o output
- -v --verbose verbose
- -f FASTA file with contigs / scaffolds
- -o output directory [redundans]
- -t THREADS no. of threads to run [4]
- --identity IDENTITY min. identity [0.51]
- --overlap OVERLAP min. overlap [0.80]
- --minLength MINLENGTH min. contig length [200]
- --noreduction Skip reduction
引用
Redundans: an assembly pipeline for highly heterozygous genomes
Leszek P. Pryszcz and Toni Gabaldón
Nucleic Acids Res. 2016 Jul 8; 44(12): e113.