2021 5/23 論文引用
1分子シーケンシング技術は最近、Pacific BiosciencesとOxford Nanoporeによって商業化され、長いDNA断片(キロベースからメガベースのオーダー)をシーケンシングし、効率的なアルゴリズムを使用して、反復領域の連続性と完全性の点で高品質のアセンブリを提供することが期待されている。しかしながら、ロングリードテクノロジーのエラー率はショートリードテクノロジーのエラー率よりも高い。これは、ゲノムアセンブリーの塩基品質、特に、シークエンシングエラーが遺伝子のコーディングフレームを混乱させる可能性があるコーディング領域において、直接的な結果をもたらす。二倍体ゲノムの場合、与えられた遺伝子のコンセンサスは、2つのハプロタイプ間の混合物である可能性があり、早期の停止コドンにつながる可能性がある。ショートリードを使用してゲノムアセンブリをポリッシュするためのいくつかの方法が開発されており、一般に、それらは、ヌクレオチドを一つずつ検査し、入力アセンブリの各ヌクレオチドに対して補正を提供する。その結果、これらのアルゴリズムは二倍体ゲノムを適切に処理することができず、典型的にはあるハプロタイプから別のハプロタイプに切り替わってしまう。ここで、著者らは、ゲノムアセンブリ、特に二倍体およびヘテロ接合体ゲノムのアセンブリをポリッシュするためにショートリードからのphasing情報を組み込むことができる新しいアルゴリズムであるHapo-G(Haplotype-Aware Polishing Of Genomes)を提案する。
HP (データセットもあり)
http://www.genoscope.cns.fr/externe/hapog/index.html
インストール
インストールスクリプトを使って導入した。
依存
- GCC and G++ (Hapo-G has been tested with GCC 4.9.2 and GCC 7.3.0)
- Autoconf with minimum 2.69 version (to build HTSlib)
- Python3 (minimum version 3.6)
- HTSlib (Automatically downloaded and built with Hapo-G)
- BioPython
- BWA
- Samtools
git clone https://github.com/institut-de-genomique/HAPO-G hapog
cd hapog/
bash build.sh
build/にhaploがビルドされる。
> python hapog.py -h
$ python hapog.py -h
usage: hapog [-h] --genome INPUT_GENOME --pe1 PE1 --pe2 PE2 [-u]
[--output OUTPUT_DIR] [--threads THREADS] [--bin HAPOG_BIN]
HAPoG uses alignments produced by BWA (or any other aligner that produces SAM files) to polish the consensus of a genome assembly.
optional arguments:
-h, --help show this help message and exit
Mandatory arguments:
--genome INPUT_GENOME, -g INPUT_GENOME
Input genome file to map reads to
--pe1 PE1 Fastq.gz paired-end file (pair 1, can be given multiple times)
--pe2 PE2 Fastq.gz paired-end file (pair 2, can be given multiple times)
Optional arguments:
-u Include unpolished sequences in final output
--output OUTPUT_DIR, -o OUTPUT_DIR
Output directory name
--threads THREADS, -t THREADS
Number of threads (used in BWA, Samtools and HAPoG)
--bin HAPOG_BIN Use a different HAPoG binary (for debug purposes)
実行方法
ドラフトアセンブリとペアエンドfastqを指定する。
python3 HAPOG_ROOT/hapog.py --genome assembly.fasta --pe1 R1.fastq.gz --pe2 R2.fastq.gz -o polishing -t 20
出力
引用
Hapo-G, Haplotype-Aware Polishing Of Genome Assemblies
Jean-Marc Aury, Benjamin Istace
bioRxiv, Posted December 15, 2020
2021 05
Hapo-G, haplotype-aware polishing of genome assemblies with accurate reads
Jean-Marc Aury, Benjamin Istace
NAR Genomics and Bioinformatics, Volume 3, Issue 2, June 2021
関連