macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Oxford Nanoporeリードのアセンブリ MiniasmとNanopolish

 

MiniasmはPacbioのロングリードやナノポアのロングリードのアセンブルツールで2015年に論文が発表された (ref.1)。アルゴリズムはオーバーラップ法になる。アセンブル時間が非常に短いのが特徴で、ナノポアリードのアセンブルの比較ペーパーでは、競合アセンブラが数時間かけるデータを2分で終えると書かれている(ref.2)。 

 

インストールからランまでの流れを見ていく。

  

GitHubダウンロードリンクからソースをダウンロードすることもできるが、brewワンライナーインストールもできる。

brew install miniasm

 

オーサーたちの準備したtestデータのダウンロード

wget -O- http://www.cbcb.umd.edu/software/PBcR/data/selfSampleData.tar.gz | tar zxf -

解凍したディレクトリは以下のようになっている。

user $ ls -lh selfSampleData

total 272M

-rw-r--r-- 1 uesaka user 267M Feb 21  2015 pacbio_filtered.fastq

-rwxr-xr-x 1 uesaka user  169 Feb  6  2015 pacbio.spec

-rw-r----- 1 uesaka user 3.1K Feb 28  2015 README

-rw-r--r-- 1 uesaka user 4.5M Mar 20  2013 reference.fasta

 

 

 

1、overlap

minimap -Sw5 -L100 -m0 -t8 pacbio_filtered.fastq pacbio_filtered.fastq | gzip -1 > reads.paf.gz 

-S skip self and dual mappings

-L INT min matching length [40]

-m FLOAT merge two chains if FLOAT fraction of minimizers are shared [0.50]

-t INT number of threads [3]

 

2、layout

miniasm -f pacbio_filtered.fastq reads.paf.gz > reads.gfa 

-f FILE read sequences

 

GFAファイルを開く。

>less -S reads.gfa

f:id:kazumaxneo:20170622221043j:plain

こんな並びになっている。awksedを使い、扱いやすいfastaに変換する。

awk '/^S/{print ">"$2"\n"$3}' reads.gfa | fold > reads.fa 

 先頭がSの行がアセンブルされたunitigで、その2フィールド目と3フィールド目fastaの>と改行をつけながらfoldに渡し、改行を加えて出力している。

 

 sampleデータでは4.9Mのcontigが1つだけできた。

user$ seqkit stats selfSampleData/reads.fa |less -S|cat

file                    format  type  num_seqs    sum_len    min_len    avg_len    max_len

elfSampleData/reads.fa  FASTA   DNA          1  4,830,022  4,830,022  4,830,022  4,830,022

 

 

 

アセンブルのエラーをNanopolishで修復する。Nanopolishは使い方に癖があるツールなので、 以下のエントリでーNanopolishを単独で説明している。


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

引用-------------------------------------------------------------------------------------------------------------------

1、Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences

Heng Li

Bioinformatics (2016) 32 (14): 2103-2110. DOI: 

https://academic.oup.com/bioinformatics/article/32/14/2103/1742895/Minimap-and-miniasm-fast-mapping-and-de-novo

 

 

2、Comparison of bacterial genome assembly software for MinION data and their applicability to medical microbiology

Kim Judge, Martin Hunt, Sandra Reuter, Alan Tracey​, Michael A. Quail, Julian Parkhill, Sharon J. Peacock

01 September 2016, Microbial Genomics , 2016 2, doi: 10.1099/mgen.0.000085

http://mgen.microbiologyresearch.org/content/journal/mgen/10.1099/mgen.0.000085