macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

アセンブリ

ナノポアのロングリードを使うとアセンブルはどのくらい改善されるのか?

ハイクオリティなショートリードのデータに、ロングリード情報を混ぜ込むとどれくらいアセンブリは改善されるのか調べてみる。 Nがないコンプリートな真核ゲノムを使いたい。100M以下の生き物で調べたところ、シゾンが完全にFinishしていた。そこでまずはシ…

構造変化も含めてバリアントを検出し、アセンブルしたFASTAを出力するPilon

何百というバクテリアゲノムをシーケンスできる時代になったが、それに伴い大量のデータを効率よく分析できる堅牢でスケール変化に対応できる手法が求められている。Pilonは全自動で動作するバクテリア向けのリファレンスベースのアセンブルツールである。dr…

ccontigsで環状ゲノムを探す

ccontigsはコンティグ末端の配列がオーバーラップしているかどうか調べることで、コンティグからclosed circularなゲノムを探すツール。環状のプラスミドやウィルスを検出できるとされる。論文にはなっていない。 ただし直鎖状コンティグでも末端が重複して…

BlobToolsでcontigのカバレッジ、GC、taxonomy情報をグラフ化する。

アセンブルで作られたcontigの中には、アセンブラのアーティファクトやコンタミ由来のcontigが混じることはよくある。そのため、アセンブリのクオリティチェックの一つにターゲットとなる生物以外の配列がどれほど混じっているか見積もることが重要になる。B…

Bandageを使いアセンブルのgraphを可視化する

bandageはde novo assemblerのfastgファイルを入力として、graphパスを描画してくれるソフトウエア。アセンブルを支援するツールとして2015年に論文が発表された。 インストール 公式サイト 公式サイトからdmgファイルをダウンロード。指示にしたがってイン…

Mixで複数のcontigを混合し、アセンブルパフォーマンスを引き上げる。

Mixはバクテリア向けに設計された、複数のconitgを混合し(ミックスして)てより長いcontigを作る方法論。うまく使えば、細分化されたcontigをより合わせ、元より長いcontigをPCRを行わずに作ることができる。 インストール 依存 python 2.7 (http://www.pyt…

de novoアセンブルしてバリアントをコールするDISCOVAR

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental du…

多機能なNGSの管理ツール BBtools 其の2

の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンドである。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - アセンブリの基本情報をレポートする。 BBDuk - ク…

多機能なNGSの管理ツール BBtools 其の1

BBtoolsはアメリカのJGIが提供している多機能なNGS向けの解析ツール。2014年にオープンソース化されたらしい。論文は現在準備中とある。アライメントのBBmapや、オーバーラップがないペアリードをマージするBBMerge、エラーコレクションしたfastqを出力するB…

アセンブルのgraphからプラスミドデータを検出するツール Recycler

Recyclerはアセンブルのgraph pathからプラスミドの配列を検出する方法論。プラスミドのグラフは他のゲノムのグラフと独立しており、カバレッジが均一な少数のノードで構成される環状のグラフと推測される。これらの手がかりからプラスミドのグラフを探索す…

RNA-seqのゲノムガイドアセンブリツール StringTie

StringTieはゲノムガイドのRNAアセンブリツール。cufflinksよりアセンブリ精度が高く、解析時間も短いと言われている。2015年にNATURE BIOTECHNOLOGYに論文が発表された。 インストール Github https://github.com/gpertea/stringtie brewで導入可能。 マニ…

QUASTでアセンブル結果を評価する

QUASTはspadesアセンブラで有名なAlgorithmic Biology Labが発表した、リファレンスとのアライメントからアセンブルの出来を評価するツール。web版とコマンドラインでランするローカル版がある。 QUASTマニュアル ダウンロード http://bioinf.spbau.ru/quast…

ウィルスゲノムのアセンブルツール IVA (Iterative Virus Assembler)

IVA (Iterative Virus Assembler)はウィルス用のDNAアセンブラ。2015年に発表された。カバレッジが大きく変動するウィルスゲノムのアセンブルに対応しているとされる。入力データはilluminaのペーアドエンドである。前もって作ったcontigからscaffoldを作っ…

diginormによるシーケンスデータの軽量化

"digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングターゲットは、低/高のk-merカバレッ…

cd-hitで似た配列をクラスタリングする

似た塩基配列やアミノ酸配列をクラスタリングできるツール。例えば、de novo transcriptome解析でアセンブルを行った後、95%以上似た配列をまとめてlongestのものだけ残しunigeneにする、というような作業を行うことができる。 ただしde nobo transcritomeに…

アセンブル結果をリードのアライメントパターンから評価する TransRate

Translateはde novo transcriptomeの精度をリードのアライメントのされ方などから評価するツール。発表は2016年だが、すでにいくつかのペーパーに引用されている。BUSCOとTransRateでcore gene数とエラー率を見積もり、アセンブルの精度を担保した上で進める…

RNAMMERでrRNAを探す。

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…

TransDecoderでタンパク質のコード領域を推定する

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

ゲノム情報はないが、モデル生物と近縁な生物のRNA seq 解析

ゲノム情報はないが近縁種のゲノムが解読されているような生物でRNA seqを行うと決まったら、どんなワークフローで進めるべきだろうか?マイクロアレイと違い、RNA seqならde novoでも解析は不可能ではない。ゲノムがモデル生物とほぼ同じならば、深く考えな…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…

Reference-assisted assembly3 ABACAS

ABACASはサンガー研の開発したReference-assisted assemblyなアセンブル法である。2009年に論文が発表された。サンガー研のACTやMummerの機能と連携しており、ランと結果の分析にはこの2つがインストールされている必要がある。その他の特徴として、primer3…

Reference-assisted assembly 2 RACA

RACA Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。 論文では、RACAを使いGAGEのゴールデンデータセットをアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている…

Reference-assisted assembly1 ragout

近縁種の既知のゲノム情報を使い、アセンブルを助ける手法がいくつか報告されている。いくつかインストールして使い勝手を検証してみる。 ragout small genomeとlarge genomeいずれにも使えるツール。2014年に発表された(ref.1)。複数の近縁ゲノムを使うこ…

k-mer カウントして、配列も出力するツール jellyfish、BFCounter

K-merカウントを行うjellyfishと、k-merの全配列を書き出すBFCounterを紹介する。 Jellyfish 公式サイト JELLYFISH - Fast, Parallel k-mer Counting for DNA Github https://github.com/gmarcais/Jellyfish ビルド ./configure make sudo make install また…

velvetのベストなk-merを自動で決めてアセンブルするvelvetoptimiser

velvetoptimiserは自動でk-merを振ってKmer coverage を調べ、velvetのアセブルにベストと思われるk-merのサイズを決め、アセンブルまで自動で行うラッパーツール。Velvetkよりもっと便利に使える。 Githubのダンウロードリンク。 GitHub - tseemann/VelvetO…

Oxford Nanoporeリードのアセンブリ パフォーマンス比較

S. cerevisiaeとE.coli K12をilluminaとnanoporeで読んだ論文のデータ が公開されている。 http://schatzlab.cshl.edu/data/nanocorr/ このデータを使い、2017年6月現在のナノポアリードのパフォーマンスを調べてみる。 上記URLからMinionとilluminaのシーケ…

ナノポアのアセンブルデータのキュレーション及び変異の検出 nanopolish

ナノポアリードでアセンブルしたcontigのエラーを修復し精度を上げるためのプログラム。変異のコールや推定メチル化サイトの検出の行うことができる。 インストールから動作まで見ていく。 誤りが見つかったため、初投稿からいくつか内容を修正しています。 …

Oxford Nanoporeリードのアセンブリ smartdenovo

Githubリンク smartdenovo/README.md at master · ruanjue/smartdenovo · GitHub インストールからランまでの流れを見ていく。 git clone https://github.com/ruanjue/smartdenovo.git && (cd smartdenovo; make) gitでダウンロードし、カレントディレクトリ…

contigからscaffoldを作るツールの検証

アセンブルして作ったcontigをペアリード情報やロングリード情報を使って統合し、Scaffoldを作るツールがいくつか発表されている。代表的なものをインストールしてテストした。 ツールのインストール テストには2種のバクテリア、Nostoc pcc 7120(Taxonomy …

Oxford Nanoporeリードのアセンブリ MiniasmとNanopolish

MiniasmはPacbioのロングリードやナノポアのロングリードのアセンブルツールで2015年に論文が発表された (ref.1)。アルゴリズムはオーバーラップ法になる。アセンブル時間が非常に短いのが特徴で、ナノポアリードのアセンブルの比較ペーパーでは、競合アセン…