macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

評価ツール

異なるk-merの割合を計算し、エラー率推定やゲノムサイズ推定に使える KmerStream

KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用することができる。サンプリングを行うためメモリ使用量が少な…

アセンブル結果の分析ツール CAMSA

公式ページ https://cblab.org/camsa/ 入力ファイル https://github.com/compbiol/CAMSA/wiki/Input インストール Github https://github.com/compbiol/CAMSA pipで導入できる。 sudo pip install CAMSArun_camsa.py --help #テストラン ラン まずコンティグ…

QUASTでアセンブル結果を評価する

QUASTはspadesアセンブラで有名なAlgorithmic Biology Labが発表した、リファレンスとのアライメントからアセンブルの出来を評価するツール。web版とコマンドラインでランするローカル版がある。 QUASTマニュアル ダウンロード http://bioinf.spbau.ru/quast…

FastQValidatorでfastqデータを検証する。

FastQValidatorは、fastqのフォーマットを検証しておかしなリードが含まれるのか調べることができるツール。具体的には、1つだけファイル名がおかしかったり(ヘッダーが@で始まっていないとか短すぎるとか)、数塩基しかないようなリードが混じっているか…

アセンブル結果をリードのアライメントパターンから評価する TransRate

Translateはde novo transcriptomeの精度をリードのアライメントのされ方などから評価するツール。発表は2016年だが、すでにいくつかのペーパーに引用されている。BUSCOとTransRateでcore gene数とエラー率を見積もり、アセンブルの精度を担保した上で進める…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…