macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ハプロタイプを考慮してドラフトゲノムアセンブリをポリッシュする Hapo-G

2021 5/23 論文引用

 

 1分子シーケンシング技術は最近、Pacific BiosciencesとOxford Nanoporeによって商業化され、長いDNA断片(キロベースからメガベースのオーダー)をシーケンシングし、効率的なアルゴリズムを使用して、反復領域の連続性と完全性の点で高品質のアセンブリを提供することが期待されている。しかしながら、ロングリードテクノロジーのエラー率はショートリードテクノロジーのエラー率よりも高い。これは、ゲノムアセンブリーの塩基品質、特に、シークエンシングエラーが遺伝子のコーディングフレームを混乱させる可能性があるコーディング領域において、直接的な結果をもたらす。二倍体ゲノムの場合、与えられた遺伝子のコンセンサスは、2つのハプロタイプ間の混合物である可能性があり、早期の停止コドンにつながる可能性がある。ショートリードを使用してゲノムアセンブリをポリッシュするためのいくつかの方法が開発されており、一般に、それらは、ヌクレオチドを一つずつ検査し、入力アセンブリの各ヌクレオチドに対して補正を提供する。その結果、これらのアルゴリズムは二倍体ゲノムを適切に処理することができず、典型的にはあるハプロタイプから別のハプロタイプに切り替わってしまう。ここで、著者らは、ゲノムアセンブリ、特に二倍体およびヘテロ接合体ゲノムのアセンブリをポリッシュするためにショートリードからのphasing情報を組み込むことができる新しいアルゴリズムであるHapo-G(Haplotype-Aware Polishing Of Genomes)を提案する。

 

HP (データセットもあり)

http://www.genoscope.cns.fr/externe/hapog/index.html

 

インストール

インストールスクリプトを使って導入した。

依存

  • GCC and G++ (Hapo-G has been tested with GCC 4.9.2 and GCC 7.3.0)
  • Autoconf with minimum 2.69 version (to build HTSlib)
  • Python3 (minimum version 3.6)
  • HTSlib (Automatically downloaded and built with Hapo-G)
  • BioPython
  • BWA
  • Samtools

本体 Github

git clone https://github.com/institut-de-genomique/HAPO-G hapog
cd hapog/
bash build.sh

build/にhaploがビルドされる。

python hapog.py -h

$ python hapog.py -h

usage: hapog [-h] --genome INPUT_GENOME --pe1 PE1 --pe2 PE2 [-u]

             [--output OUTPUT_DIR] [--threads THREADS] [--bin HAPOG_BIN]

 

HAPoG uses alignments produced by BWA (or any other aligner that produces SAM files) to polish the consensus of a genome assembly.

 

optional arguments:

  -h, --help            show this help message and exit

 

Mandatory arguments:

  --genome INPUT_GENOME, -g INPUT_GENOME

                        Input genome file to map reads to

  --pe1 PE1             Fastq.gz paired-end file (pair 1, can be given multiple times)

  --pe2 PE2             Fastq.gz paired-end file (pair 2, can be given multiple times)

 

Optional arguments:

  -u                    Include unpolished sequences in final output

  --output OUTPUT_DIR, -o OUTPUT_DIR

                        Output directory name

  --threads THREADS, -t THREADS

                        Number of threads (used in BWA, Samtools and HAPoG)

  --bin HAPOG_BIN       Use a different HAPoG binary (for debug purposes)

 

 

実行方法

ドラフトアセンブリとペアエンドfastqを指定する。

python3 HAPOG_ROOT/hapog.py  --genome assembly.fasta --pe1 R1.fastq.gz --pe2 R2.fastq.gz -o polishing -t 20

出力

f:id:kazumaxneo:20201222004725p:plain

 引用

Hapo-G, Haplotype-Aware Polishing Of Genome Assemblies

Jean-Marc Aury, Benjamin Istace

bioRxiv, Posted December 15, 2020

 

2021 05

Hapo-G, haplotype-aware polishing of genome assemblies with accurate reads
Jean-Marc Aury, Benjamin Istace
NAR Genomics and Bioinformatics, Volume 3, Issue 2, June 2021

 

関連