macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

アセンブリ

異なるk-merの割合を計算し、エラー率推定やゲノムサイズ推定に使える KmerStream

KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用することができる。サンプリングを行うためメモリ使用量が少な…

k-mer出現頻度を高速計算するntCard

DSK、KmerStream、Khmer、kmerGenieなどより高速に動作するk-merカウントの方法論。原理は大きく異なるが、論文中での上記ツールとの比較では、kmerGenieより100倍以上高速に処理できている。 インストール brewでインストールできる。 brew install ntcardn…

ロングリードを使いcontigをアップグレードするFinisherSC

FinisherSCはPacbioなどのロングリード情報を使いcontigを伸ばす(contiguityを良くする)パイプライン。ショートリードから作ったcontigだけでなく、ロングリードから作ったcontigをアップグレードすることもできる。論文では同様の機能を持つPBjelly2より…

アセンブル結果の分析ツール CAMSA

公式ページ https://cblab.org/camsa/ 入力ファイル https://github.com/compbiol/CAMSA/wiki/Input インストール Github https://github.com/compbiol/CAMSA pipで導入できる。 sudo pip install CAMSArun_camsa.py --help #テストラン ラン まずコンティグ…

deep sequenceされたウィルスのアセンブルツール sparNA

sparNAはウィルスゲノムのアセンブリツール。ウィルスゲノムはRNA ploplymeraseのエラー率の高さなどの要因でhetero genesityが非常に高いため、特別な仕分け方をしない限りpopulation genomeやmeta genomeのデータセットに近い状態でシーケンス解析が行われ…

HybPiperで指定した遺伝子のエンリッチメントを行う

HybPiperは系統解析などを行うために遺伝子領域のエンリッチメントを行うことができるツール。NGSのリードを出発点として、準備した遺伝子配列セット(bait)にリードをアライメントし(BWA, BLAST)、spadesで個別にアセンブルを実行する。出力はcDNA配列と…

ウィルスゲノムのde novo assemblyツール IVA

RNAウィルスのシーケンスでは、逆転写やPCR増幅のbiasにより極めて不均一なカバレッジになってしまうことが知られている。1本の鎖の中のカバレッジが大きく変動するため、一般のde brujinグラフのアセンブルツールはもとより、鋳型量が異なるmRNAやメタゲノ…

ハイブリッドアセンブルを行うUnicycler

Unicyclerはショートリードのde novo asssembly、ロングリードのde novo asssembly、ショートリードとロングリードを両方使ったハイブリッドのde novo asssemblyに対応したアセンブルパイプライン。単離されたバクテリア向けに設計されており、真核生物のゲ…

ハイブリッドアセンブルを行うquickmerge

quickmergeは、ロングリード情報を使い、アセンブルのcontiguityを向上させるツール。特にロングリードのカバレッジがmodestな時にcontiguityが大きく向上するとされる。ロングリードのカバレッジが飽和すると差はなくなると主張されているが、高コストなロ…

ナノポアのロングリードを使うとアセンブルはどのくらい改善されるのか?

ハイクオリティなショートリードのデータに、ロングリード情報を混ぜ込むとどれくらいアセンブリは改善されるのか調べてみる。 NがあってもgrepやUCSC ゲノムブラウザで除くことができるが、それでは肝心の繰り返し領域の評価が曖昧になる。やはりNがないコ…

構造変化も含めてバリアントを検出し、アセンブルしたFASTAを出力するPilon

何百というバクテリアゲノムをシーケンスできる時代になったが、それに伴い大量のデータを効率よく分析できる堅牢でスケール変化に対応できる手法が求められている。Pilonは全自動で動作するバクテリア向けのリファレンスベースのアセンブルツールである。dr…

ccontigsで環状ゲノムを探す

ccontigsはコンティグ末端の配列がオーバーラップしているかどうか調べることで、コンティグからclosed circularなゲノムを探すツール。環状のプラスミドやウィルスを検出できるとされる。論文にはなっていない。 ただし直鎖状コンティグでも末端が重複して…

BlobToolsでcontigのカバレッジ、GC、taxonomy情報をグラフ化する。

アセンブルで作られたcontigの中には、アセンブラのアーティファクトやコンタミ由来のcontigが混じることはよくある。そのため、アセンブリのクオリティチェックの一つにターゲットとなる生物以外の配列がどれほど混じっているか見積もることが重要になる。B…

Bandageを使いアセンブルのgraphを可視化する

bandageはde novo assemblerのfastgファイルを入力として、graphパスを描画してくれるソフトウエア。アセンブルを支援するツールとして2015年に論文が発表された。 追記: カバレッジでグラフを書くコマンドを追加。 インストール 公式サイト 公式サイトからd…

Mixで複数のcontigを混合し、アセンブルパフォーマンスを引き上げる。

Mixはバクテリア向けに設計された、複数のconitgを混合し(ミックスして)てより長いcontigを作る方法論。うまく使えば、細分化されたcontigをより合わせ、元より長いcontigをPCRを行わずに作ることができる。 インストール 依存 python 2.7 (http://www.pyt…

de novoアセンブルしてバリアントをコールするDISCOVAR

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental du…

多機能なNGSの管理ツール BBtools 其の2

の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンドである。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - アセンブリの基本情報をレポートする。 BBDuk - ク…

多機能なNGSの管理ツール BBtools 其の1

BBtoolsはアメリカのJGIが提供している多機能なNGS向けの解析ツール。2014年にオープンソース化されたらしい。論文は現在準備中とある。アライメントのBBmapや、オーバーラップがないペアリードをマージするBBMerge、エラーコレクションしたfastqを出力するB…

アセンブルのgraphからプラスミドデータを検出するツール Recycler

Recyclerはアセンブルのgraph pathからプラスミドの配列を検出する方法論。プラスミドのグラフは他のゲノムのグラフと独立しており、カバレッジが均一な少数のノードで構成される環状のグラフと推測される。これらの手がかりからプラスミドのグラフを探索す…

RNA-seqのゲノムガイドアセンブリツール StringTie

StringTieはゲノムガイドのRNAアセンブリツール。cufflinksよりアセンブリ精度が高く、解析時間も短いと言われている。2015年にNATURE BIOTECHNOLOGYに論文が発表された。 インストール Github https://github.com/gpertea/stringtie brewで導入可能。 マニ…

QUASTでアセンブル結果を評価する

QUASTはspadesアセンブラで有名なAlgorithmic Biology Labが発表した、リファレンスとのアライメントからアセンブルの出来を評価するツール。web版とコマンドラインでランするローカル版がある。 QUASTマニュアル ダウンロード http://bioinf.spbau.ru/quast…

ウィルスゲノムのアセンブルツール IVA (Iterative Virus Assembler)

IVA (Iterative Virus Assembler)はウィルス用のDNAアセンブラ。2015年に発表された。カバレッジが大きく変動するウィルスゲノムのアセンブルに対応しているとされる。入力データはilluminaのペーアドエンドである。前もって作ったcontigからscaffoldを作っ…

diginormによるシーケンスデータの軽量化

"digital normalization"という名で発表されたこの手法は、k-merを指標にリードを間引いて、データサイズを軽量化する方法論。データサイズが大きすぎてアセンブルできないサンプルの軽量化に使えるとされる。トリミングターゲットは、低/高のk-merカバレッ…

cd-hitで似た配列をクラスタリングする

似た塩基配列やアミノ酸配列をクラスタリングできるツール。例えば、de novo transcriptome解析でアセンブルを行った後、95%以上似た配列をまとめてlongestのものだけ残しunigeneにする、というような作業を行うことができる。 ただしde nobo transcritomeに…

アセンブル結果をリードのアライメントパターンから評価する TransRate

Translateはde novo transcriptomeの精度をリードのアライメントのされ方などから評価するツール。発表は2016年だが、すでにいくつかのペーパーに引用されている。BUSCOとTransRateでcore gene数とエラー率を見積もり、アセンブルの精度を担保した上で進める…

RNAMMERでrRNAを探す。

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…

TransDecoderでタンパク質のコード領域を推定する

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

ゲノム情報はないが、モデル生物と近縁な生物のRNA seq 解析

ゲノム情報はないが近縁種のゲノムが解読されているような生物でRNA seqを行うと決まったら、どんなワークフローで進めるべきだろうか?マイクロアレイと違い、RNA seqならde novoでも解析は不可能ではない。ゲノムがモデル生物とほぼ同じならば、深く考えな…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…

Reference-assisted assembly3 ABACAS

ABACASはサンガー研の開発したReference-assisted assemblyなアセンブル法である。2009年に論文が発表された。サンガー研のACTやMummerの機能と連携しており、ランと結果の分析にはこの2つがインストールされている必要がある。その他の特徴として、primer3…