macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

オックスフォードナノポアのハプロイドアセンブリを2倍体アセンブリに変換する hapdup

 

 ロングリードシーケンシングは、現在マッピングが困難な領域に到達し、隣接するバリエーションを日常的にリンクさせてリードベースのフェージングを可能にすることで、バリアント検出に変革をもたらす可能性がある。第3世代のナノポアシーケンスデータは、長いリード長を示すが、その新しいナノポアベースのシグナルに対する現在の解釈方法は、独特のエラープロファイルを持ち、正確な分析を困難にしている。ここでは、ハプロタイプを考慮したバリアントコーリングパイプラインPEPPER-Margin-DeepVariantを紹介する。これは、ナノポアデータを用いて最先端のバリアントコーリング結果を得ることができる。このナノポアベースの手法は、全ゲノムスケールでショートリードベースの一塩基バリアント同定法を凌駕し、ショートリードベースのジェノタイピングが失敗するセグメント重複や低適応性領域において高品質の一塩基バリアントを生成することを示している。このパイプラインは、6つのサンプルで注釈付き遺伝子の85%から92%を連続的にカバーする、ナノポアリードを用いたゲノム全体の高フェージングブロックを提供できることを示している。また、PEPPER-Margin-DeepVariantをPacBio HiFiデータに拡張し、現行のWhatsHap-DeepVariant規格よりも優れた性能を持つ効率的なソリューションを提供する。最後に、ナノポアおよびPacBio HiFiリードを使用して、高精度の2倍体アセンブリを生成するためのde novoアセンブリポリッシング法を実証する。

 

Githubより

Hapdupは、FlyeやShastaで作成されたようなロングリードアセンブリを入力として受け取る。アセンブリはhaploidであると想定され、代替対立遺伝子はpurge_dupsを用いてパイプラインを実行する前に除去することができる。最初の段階では、minimap2を用いてアセンブリ上のオリジナルのロングリードをリアラインする。最新のminimap2を使用することを勧める。

 

 

インストール

dockerまたはSingularityを使ったインストールが推奨されている。ここではレポジトリのdockerfileからビルドした。

Github

git clone https://github.com/fenderglass/hapdup
cd hapdup
git submodule update --init --recursive
docker build -t hapdup .

#hapdup help

usage: hapdup [-h] --assembly path --bam path --out-dir path [--overwrite]

              [-t int]

 

Reassemble haplotypes from collapsed haploid assmebly

 

optional arguments:

  -h, --help            show this help message and exit

  --assembly path       path to haploid assembly (contigs in fasta format)

  --bam path            path to the alignment of reads on the assembly in bam

                        format

  --out-dir path        Output directory

  --overwrite           Do not attempt to restart from complete phases,

                        overwrites existing results

  -t int, --threads int

                        number of parallel threads [10];

 

 

実行方法

1、ロングリードのマッピング

minimap2を用いてロングリードをゲノムアセンブリリアラインする。

minimap2 -ax map-ont assembly.fasta reads.fastq | samtools sort -@ 4 -m 4G > lr_mapping.bam
samtools index -@ 4 assembly_lr_mapping.bam

 

2、hapdupの実行

ゲノムアセンブリFASTA形式ファイル、1で得たbamファイルを指定する。

HD_DIR=`pwd`
docker run -v $HD_DIR:$HD_DIR -u `id -u`:`id -g` hapdup\
hapdup --assembly $HD_DIR/assembly.fasta --bam $HD_DIR/lr_mapping.bam --out-dir $HD_DIR/hapdup -t 64

 

追記

docker imageも公開されているようです。レポジトリを参照してください。

引用

Haplotype-aware variant calling enables high accuracy in nanopore long-reads using deep neural networks

Kishwar Shafin,  Trevor Pesout, Pi-Chuan Chang, Maria Nattestad, Alexey Kolesnikov, Sidharth Goel, Gunjan Baid, Jordan M. Eizenga, Karen H. Miga, Paolo Carnevali, Miten Jain, Andrew Carroll, Benedict Paten

bioRxiv, Posted March 05, 2021

 

関連