macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ナノポアのアセンブルデータのキュレーション及び変異の検出 nanopolish

 

ナノポアリードでアセンブルしたcontigのエラー修復と、変異のコールを行うツール。

インストールから動作まで見ていく。

 

ダウンロード

Github HP

GitHub - jts/nanopolish: Signal-level algorithms for MinION data

 

インストー

mac ではビルドできないとの情報があるので、cent OSにインストールした (dockerを使い

macでランする方法もオーサーたちは紹介してます)。

 

依存するもの

解凍したディレクトリのルートでmakeするだけでbiopython以外の依存するパッケージは自動導入してくれる。

make 

brewで導入することもできる。macでエラーが出る人は、biostarの関連スレッドを参照。

 

 代表的な機能を見ていく。

 

Minionから出力されたFAST5をfastaやfastqに変換する。

nanopolish extract: extract reads in FASTA or FASTQ format from a directory of FAST5 files

 

 

 

ドラフトゲノムをキュレートする。

nanopolish variants --consensus: calculate an improved consensus sequence for a draft genome assembly

ミスマッチが修復されるだけでなく、contigが伸びたりスキャホールドが長くなることもある。ドラフトゲノムをpolishしてクオリティを上げるワークフロ-は以下のようになる。

1、FAST5からfasta(fastq)を抽出

2、bwa memなどを使い、nanoporeのリードをドラフトゲノム(.fa) にアライメント

3、nanopolishでゲノムを50kbのセグメントに分け、コンセンサス配列を分析。

4、nanopolishで各セグメントをマージし、polishしたゲノム (.fa) を出力。

 

 

実際にテストしてみる。

S. cerevisiaeとE.coli K12をilluminaとnanoporeで読んだ論文のシーケンスデータ が公開されている。

http://schatzlab.cshl.edu/data/nanocorr/

49GBある生データをダウンロードし、変換から行ってみる。

 

 

 

 

作成途中

 

 

 

 

他にも以下のような機能がある。

 

メチル化サイトをコールする。

nanopolish call-methylation: predict genomic bases that may be methylated

 

SNVとindelをコールする。

nanopolish variants: detect SNPs and indels with respect to a reference genome

 

 

 

 

2, Oxford Nanopore sequencing, hybrid error correction, and de novo assembly of a eukaryotic genome

Sara Goodwin,1 James Gurtowski,1 Scott Ethe-Sayers, Panchajanya Deshpande, Michael C. Schatz, and W. Richard McCombie

Genome Res. 2015 Nov; 25(11): 1750–1756. doi: 10.1101/gr.191395.115

 

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4617970/