macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Oxford Nanoporeリードのアセンブリ MiniasmとNanopolish

 

MiniasmはPacbioのロングリードやナノポアのロングリードのアセンブルツールで2015年に論文が発表された (ref.1)。アルゴリズムはオーバーラップ法になる。アセンブル時間が非常に短いのが特徴で、ナノポアリードのアセンブルの比較ペーパーでは、競合アセンブラが数時間かけるデータを2分で終えると書かれている(ref.2)。 

 

インストールからランまでの流れを見ていく。

 

GitHubダウンロードリンクからソースをダウンロードすることもできるが、brewワンライナーインストールもできる。

brew install miniasm

 

オーサーたちの準備したtestデータのダウンロード

wget -O- http://www.cbcb.umd.edu/software/PBcR/data/selfSampleData.tar.gz | tar zxf - ln -s selfSampleData/pacbio_filtered.fastq reads.fq

 

1、overlap

minimap/minimap -Sw5 -L100 -m0 -t8 reads.fq reads.fq | gzip -1 > reads.paf.gz 

2、layout

miniasm/miniasm -f reads.fq reads.paf.gz > reads.gfa 

 

GFAファイルを開く。

>less -S reads.gfa

f:id:kazumaxneo:20170622221043j:plain

こんな並びになっている。awksedを使い、扱いやすいfastaに変換する。

awk '/^S/{print ">"$2"\n"$3}' reads.gfa | fold > reads.fa 

 先頭がSの行がアセンブルされたunitigで、その2フィールド目と3フィールド目fastaの>と改行をつけながらfoldに渡し、改行を加えて出力している。

 

 

 

 

アセンブルのエラーをNanopolishで修復する。

 

以下のエントリでーNanopolishのインストールは説明している。


 

 

 

 

 

  

作成途中

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

引用-------------------------------------------------------------------------------------------------------------------

1、Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences

Heng Li

Bioinformatics (2016) 32 (14): 2103-2110. DOI: 

https://academic.oup.com/bioinformatics/article/32/14/2103/1742895/Minimap-and-miniasm-fast-mapping-and-de-novo

 

 

2、Comparison of bacterial genome assembly software for MinION data and their applicability to medical microbiology

Kim Judge, Martin Hunt, Sandra Reuter, Alan Tracey​, Michael A. Quail, Julian Parkhill, Sharon J. Peacock

01 September 2016, Microbial Genomics , 2016 2, doi: 10.1099/mgen.0.000085

http://mgen.microbiologyresearch.org/content/journal/mgen/10.1099/mgen.0.000085