ロングリードシーケンシングは、現在マッピングが困難な領域に到達し、隣接するバリエーションを日常的にリンクさせてリードベースのフェージングを可能にすることで、バリアント検出に変革をもたらす可能性がある。第3世代のナノポアシーケンスデータは、長いリード長を示すが、その新しいナノポアベースのシグナルに対する現在の解釈方法は、独特のエラープロファイルを持ち、正確な分析を困難にしている。ここでは、ハプロタイプを考慮したバリアントコーリングパイプラインPEPPER-Margin-DeepVariantを紹介する。これは、ナノポアデータを用いて最先端のバリアントコーリング結果を得ることができる。このナノポアベースの手法は、全ゲノムスケールでショートリードベースの一塩基バリアント同定法を凌駕し、ショートリードベースのジェノタイピングが失敗するセグメント重複や低適応性領域において高品質の一塩基バリアントを生成することを示している。このパイプラインは、6つのサンプルで注釈付き遺伝子の85%から92%を連続的にカバーする、ナノポアリードを用いたゲノム全体の高フェージングブロックを提供できることを示している。また、PEPPER-Margin-DeepVariantをPacBio HiFiデータに拡張し、現行のWhatsHap-DeepVariant規格よりも優れた性能を持つ効率的なソリューションを提供する。最後に、ナノポアおよびPacBio HiFiリードを使用して、高精度の2倍体アセンブリを生成するためのde novoアセンブリポリッシング法を実証する。
Githubより
Hapdupは、FlyeやShastaで作成されたようなロングリードアセンブリを入力として受け取る。アセンブリはhaploidであると想定され、代替対立遺伝子はpurge_dupsを用いてパイプラインを実行する前に除去することができる。最初の段階では、minimap2を用いてアセンブリ上のオリジナルのロングリードをリアラインする。最新のminimap2を使用することを勧める。
Most current ONT assemblies of diploid genomes represent a single mosaic haplotype. We present a simple pipeline called Hapdup that converts a haploid assembly into a dual diploid assembly. Available here: https://t.co/ZtJcYdNZGV
— Mikhail Kolmogorov (@MishaKolmogorov) 2021年11月3日
インストール
dockerまたはSingularityを使ったインストールが推奨されている。ここではレポジトリのdockerfileからビルドした。
git clone https://github.com/fenderglass/hapdup
cd hapdup
git submodule update --init --recursive
docker build -t hapdup .
#hapdup help
usage: hapdup [-h] --assembly path --bam path --out-dir path [--overwrite]
[-t int]
Reassemble haplotypes from collapsed haploid assmebly
optional arguments:
-h, --help show this help message and exit
--assembly path path to haploid assembly (contigs in fasta format)
--bam path path to the alignment of reads on the assembly in bam
format
--out-dir path Output directory
--overwrite Do not attempt to restart from complete phases,
overwrites existing results
-t int, --threads int
number of parallel threads [10];
実行方法
1、ロングリードのマッピング
minimap2を用いてロングリードをゲノムアセンブリにリアラインする。
minimap2 -ax map-ont assembly.fasta reads.fastq | samtools sort -@ 4 -m 4G > lr_mapping.bam
samtools index -@ 4 assembly_lr_mapping.bam
2、hapdupの実行
ゲノムアセンブリのFASTA形式ファイル、1で得たbamファイルを指定する。
HD_DIR=`pwd`
docker run -v $HD_DIR:$HD_DIR -u `id -u`:`id -g` hapdup\
hapdup --assembly $HD_DIR/assembly.fasta --bam $HD_DIR/lr_mapping.bam --out-dir $HD_DIR/hapdup -t 64
追記
docker imageも公開されているようです。レポジトリを参照してください。
引用
Haplotype-aware variant calling enables high accuracy in nanopore long-reads using deep neural networks
Kishwar Shafin, Trevor Pesout, Pi-Chuan Chang, Maria Nattestad, Alexey Kolesnikov, Sidharth Goel, Gunjan Baid, Jordan M. Eizenga, Karen H. Miga, Paolo Carnevali, Miten Jain, Andrew Carroll, Benedict Paten
bioRxiv, Posted March 05, 2021
関連