macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

アセンブリ

ウィルスゲノムのアセンブルツール IVA (Iterative Virus Assembler)

IVA (Iterative Virus Assembler)はウィルス用のDNAアセンブラ。2015年に発表された。カバレッジが大きく変動するウィルスゲノムのアセンブルに対応しているとされる。入力データはilluminaのペーアドエンドである。前もって作ったcontigからscaffoldを作っ…

diginormによるシーケンスデータの軽量化

"digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングターゲットは、低/高のk-merカバレッ…

cd-hitで似た配列をクラスタリングする

似た塩基配列やアミノ酸配列をクラスタリングできるツール。例えば、de novo transcriptome解析でアセンブルを行った後、95%以上似た配列をまとめてlongestのものだけ残しunigeneにする、というような作業を行うことができる。 ただしde nobo transcritomeに…

アセンブル結果をリードのアライメントパターンから評価する TransRate

Translateはde novo transcriptomeの精度をリードのアライメントのされ方などから評価するツール。発表は2016年だが、すでにいくつかのペーパーに引用されている。BUSCOとTransRateでcore gene数とエラー率を見積もり、アセンブルの精度を担保した上で進める…

RNAMMERでrRNAを探す。

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…

TransDecoderでタンパク質のコード領域を推定する

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

ゲノム情報はないが、モデル生物と近縁な生物のRNA seq 解析

ゲノム情報はないが近縁種のゲノムが解読されているような生物でRNA seqを行うと決まったら、どんなワークフローで進めるべきだろうか?マイクロアレイと違い、RNA seqならde novoでも解析は不可能ではない。ゲノムがモデル生物とほぼ同じならば、深く考えな…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…

Reference-assisted assembly3 ABACAS

ABACASはサンガー研の開発したReference-assisted assemblyなアセンブル法である。2009年に論文が発表された。サンガー研のACTやMummerの機能と連携しており、ランと結果の分析にはこの2つがインストールされている必要がある。その他の特徴として、primer3…

Reference-assisted assembly 2 RACA

RACA Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。 論文では、RACAを使いGAGEのゴールデンデータセットをアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている…

Reference-assisted assembly1 ragout

近縁種の既知のゲノム情報を使い、アセンブルを助ける手法がいくつか報告されている。いくつかインストールして使い勝手を検証してみる。 ragout small genomeとlarge genomeいずれにも使えるツール。2014年に発表された(ref.1)。複数の近縁ゲノムを使うこ…

k-mer カウントして、配列も出力するツール jellyfish、BFCounter

K-merカウントを行うjellyfishと、k-merの全配列を書き出すBFCounterを紹介する。 Jellyfish 公式サイト JELLYFISH - Fast, Parallel k-mer Counting for DNA Github https://github.com/gmarcais/Jellyfish ビルド ./configure make sudo make install また…

velvetのベストなk-merを自動で決めてアセンブルするvelvetoptimiser

velvetoptimiserは自動でk-merを振ってKmer coverage を調べ、velvetのアセブルにベストと思われるk-merのサイズを決め、アセンブルまで自動で行うラッパーツール。Velvetkよりもっと便利に使える。 Githubのダンウロードリンク。 GitHub - tseemann/VelvetO…

Oxford Nanoporeリードのアセンブリ パフォーマンス比較

S. cerevisiaeとE.coli K12をilluminaとnanoporeで読んだ論文のデータ が公開されている。 http://schatzlab.cshl.edu/data/nanocorr/ このデータを使い、2017年6月現在のナノポアリードのパフォーマンスを調べてみる。 上記URLからMinionとilluminaのシーケ…

ナノポアのアセンブルデータのキュレーション及び変異の検出 nanopolish

ナノポアリードでアセンブルしたcontigのエラーを修復し精度を上げるためのプログラム。変異のコールや推定メチル化サイトの検出の行うことができる。 インストールから動作まで見ていく。 誤りが見つかったため、初投稿からいくつか内容を修正しています。 …

Oxford Nanoporeリードのアセンブリ smartdenovo

Githubリンク smartdenovo/README.md at master · ruanjue/smartdenovo · GitHub インストールからランまでの流れを見ていく。 git clone https://github.com/ruanjue/smartdenovo.git && (cd smartdenovo; make) gitでダウンロードし、カレントディレクトリ…

contigからscaffoldを作るツールの検証

アセンブルして作ったcontigをペアリード情報やロングリード情報を使って統合し、Scaffoldを作るツールがいくつか発表されている。代表的なものをインストールしてテストした。 ツールのインストール テストには2種のバクテリア、Nostoc pcc 7120(Taxonomy …

Oxford Nanoporeリードのアセンブリ MiniasmとNanopolish

MiniasmはPacbioのロングリードやナノポアのロングリードのアセンブルツールで2015年に論文が発表された (ref.1)。アルゴリズムはオーバーラップ法になる。アセンブル時間が非常に短いのが特徴で、ナノポアリードのアセンブルの比較ペーパーでは、競合アセン…

contigからScaffoldを作るツール

contigからScaffoldを作るツールがいくつか発表されているので試してみる。 SSPACE-LONGREAD ダウンロードリンク https://www.baseclear.com/genomics/bioinformatics/basetools/SSPACE-longread ダウンロードには上記リンクから名前や所属の入力が必要。登…

Oxford Nanoporeリードのアセンブリ canu

セレラのアセンブラのforkとして派生してできたCanuというアセンブラが良さげである。CanuはPacbioやnanoporeなどの1分子シーケンス用のアセンブラとして開発された。 下記にはCanuを使ってヒトゲノムのアセンブリを行った例が紹介されている。 canuはPBcR…

RNA seq 非モデル生物の解析

ゲノム情報がない場合、まず最初にアセンブリから始めることになる。RNAのアセンブリはTrinityが有名なのでtrinityを使ってみる。練習データとして、SRAに登録されているレタスのRNA seqデータを使う。 http://trace.ddbj.nig.ac.jp/DRASearch/submission?ac…