macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Oxford Nanoporeリードのアセンブリ canu

 

 1分子ロングリードシークエンシングはデノボゲノムアセンブリに革命をもたらし、参照品質ゲノムの自動再構成を可能にした。しかしながら、そのような技術の比較的高いエラー率を考慮すると、大きなリピート配列および密接に関連するハプロタイプの効率的かつ正確なアセンブルは依然として困難である。これらの問題は、ノイズの多い単一分子シーケンス用に特別に設計されたCelera Assemblerの後継製品であるCanuで解決する。 Canuはナノポアシークエンシングをサポートし、カバレッジ深度の要件を半分にし、アセンブリのcontiguityを向上させると同時に、Celera Assembler 8.2と比較して大きなゲノムでランタイムを一桁も短縮する。これらの進歩は tf-idf weighted MinHash と sparse assembly graph constructionによってリピートやハプロタイプによる崩壊を防ぐアセンブリアルゴリズムの結果である。著者らはCanuがPacific Biosciences(PacBio)またはOxford Nanoporeのいずれかを用いて完全なバクテリアゲノムおよびほぼ完全な真核生物染色体を確実にアセンブルし、ヒトおよびショウジョウバエのPacBioデータセットで> 21MbpのコンティグNG50を達成することを示す。

 

CanuはPacbioやnanoporeなどの1分子シーケンス用のアセンブラとして開発された。下記にはCanuを使ってヒトゲノムのアセンブリを行った例が紹介されている。

canuはPBcRの後継にもなっており、PBcRのダウンロードページでは、特別な理由がない限りPBcRの代わりにcanuをロングリードのアセンブリに使うことを推奨している。

http://wgs-assembler.sourceforge.net/wiki/index.php/PBcR

  

インストール

githubのダウンロードリンク

GitHub - marbl/canu: A single molecule sequence assembler for genomes large and small.

macはbinaryのみ提供されている。version1.5のページのcanu-1.5.Darwin-amd64.tar.xzをダウンロードした(mac OSXはDarwin系列のunix)。ダウンロードが終わったら解凍する。

gunzip -dc canu-1.5.Darwin-amd64.tar.xz | tar -xf -

できたディレクトリを適切な場所に移動させる。

ディレクトリ中Darwin-amd64/binに本体が入っているので、そこにパスを通せばランの準備は整う。

 

 

テストラン

公式ページで提供されているnanoporeのシーケンスデータ(fastaに変換されている)を使って、テストランを行う。

curl -L -o oxford.fasta http://nanopore.s3.climb.ac.uk/MAP006-PCR-1_2D_pass.fasta

oxford.fasta (145MB) がカレントディレクトリにダウンロードされる。

アセンブル

canu -p ecoli -d ecoli-oxford genomeSize=4.8m -nanopore-raw oxford.fasta

プリフィックスとしてecoliという名前をつけている。-dでランディレクトリを指定する。今回だとecoli-oxfordディレクトリの中で、アセンブル前のエラーコレクション、エラーのトリミング、unitig作成が行われる。

ランが進むと、作業ディレクトリにレポートが出力される。

correction.htmlを開く。

f:id:kazumaxneo:20170616135136j:plain

correction.html.files/中にはRで描かれたと思われるオリジナルのjpgが保存されている。インサートサイズのjpgを開く。

f:id:kazumaxneo:20170616135633p:plain

ポアソン分布に近い裾野が長い分布になっている。

 

ランが進むと、trimming.htmlができる。開くとトリミングに関するレポートをみることができる。

 

 Pacbioのデータでも試してみる(Pacbioのテストラン)。

ダウンロード

curl -L -o p6.25x.fastq http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq

p6.25x.fastq (233MB) がカレントディレクトリにダウンロードされる(fastqになっている)。

アセンブル

canu -p ecoli -d ecoli-auto genomeSize=4.8m -pacbio-raw p6.25x.fastq

 

エラーの多い1Dのデータをアセンブルすると、Miniasmだとできないなりに最後までプロセスは進みますが、canuはerrorで止まルようです。あまりにノイジーでアセンブルできないなら、ナノポアのロングリード自体でロングリードをpolishするか、illuminaのショートリードでポリッシュするようなフローが必要になります。ご注意ください。

以下の論文では5つのエラー修復方法を検討しています。

https://www.nature.com/articles/srep28625

 

 

追記 2018/03時点ですでに100回以上引用されている(リンク)。中にはONTリードをcanuでアセンンブルして、ドラフトゲノムとしてgenome anouncementに出した論文も出てきている。

 

 

引用

Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation.

Koren S, Walenz BP, Berlin K, Miller JR, Bergman NH, Phillippy AM

 Genome Res. 2017 May;27(5):722-736.