macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

evaluation tool

複数のアセンブラとk-merを使ったTranscriptome 自動アセンブリワークフロー Oyster River Protocol

2018 11/2 コマンド追記 & 誤字修正 2018 11/7 誤字修正 現代のシーケンシング技術は細胞内の代謝過程から人口変動パターンまで、非常に幅広い自然現象の基礎となるゲノムレベルのプロセスを深く理解する機会を提供してきた。トランスクリプトームシーケンシ…

メタゲノムのbinner評価ツール AMBER

ショットガンシーケンシングのMetagenomicsにより、微生物のコミュニティとそのメンバーを研究できる。進化的発散とこれらのメンバーの豊富さは大きな違いがあり、strainレベルの非常にclosely relatedなメンバーだったり、進化的に大きく離れていたり、豊富…

Procaryotesの自動アセンブリパイプライン Mypro

Pos 最近の全ゲノムシーケンシング(WGS)技術のコストの低下は、様々な原核生物のシーケンシングの増加をもたらした。典型的なゲノミクスプロジェクトでは、データマイニングの前にシーケンシングリードを処理する必要がある(Hasman et al、2014; Rhoads e…

ラージゲノムにも対応したアセンブリ評価ツール QUAST-LG

現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを生成する。低コストで高品質の第2世代シーケンシング(次世代シークエンシングまたはNGSとも呼ばれる)の…

アセンブリの簡単なstatisticsを出力する assembly-stats

assembly-statsはsanger-pathogensのGithubレポジトリで公開されているアセンブリ配列の簡単な要約統計を出力するツール。 インストール mac os10.13でテストした。 本体 Github #Anaconda環境ならcondaでインストールできるconda install -c bioconda assem…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

メタゲノムデータの平均ゲノムサイズや総カバレッジを推定する MicrobeCensus

ショットガンメタゲノミクスは、人体や環境の微生物群集の機能的構成を特徴づけるためにますます使用されてきている[論文より ref.1-4]。これらの研究の共通の目標は、遺伝子ファミリー存在量を定量化し、環境、宿主の表現型、または実験条件の間で豊富さが…

Picard Toolsのbamを分析する各コマンドを実行し、結果を統合する picardmetrics

picardmetricsはKamil Slowikowskiさんが公開されたPicard(ピカード)Toolsのbamを分析する各コマンドを走らせ、その結果を統合してくれるシェルスクリプト。 コマンド https://slowkow.github.io/picardmetrics/ インストール ubuntu18.04に導入した。 依…

SVシミュレーションや、SVのマージ、レポート生成ができる SURVIVOR

一塩基多型(SNP)、小さな挿入 - 欠失事象(indels)、トランスポゾン挿入および大きな構造変化(SV)を含む、様々な遺伝的変化が生物種に影響し得る。欠失、重複、挿入、逆位および転座を含むSVは、タイピングするのが最も困難であり、結果として最もよく…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

(RNA seq) 複数のde novoアセンブリ結果をマージし、冗長なcontigを除く DRAP

第二世代シークエンシングプラットフォームは、多種多様な種および条件の遺伝子発現を分析することを可能にする、多量の転写産物のシーケンスデータの生成を可能にした。リファレンスゲノム配列を欠く種については、現在の古典的なプロセシングパイプライン…

K-mer分析ツールキット KAT

ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGSデータを分析するためのリファレンスが不要なアプローチは、基本的な品質、リード長、GC…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。しかしながら、これらのゲノムの最も基本的な特徴、例えばサイズまたはヘテロ接合率などは、最初は未知であり、例えばリードマッパー、デノボアセンブラ、SNP…

構造変化が起きた部位のマッピング状況を出力する samplot

samplotはbamやcramを入力として、SVの起こった領域の図を出力してくれるツール。vcfからの一括描画にも対応しているため、variant call format(VCF)を出力したら、そのままsamplotに送るようなスクリプトを書くことで、推定SV全てを目視で簡単に確認でき…

アセンブル結果をリファレンスと比較して構造変化などを可視化するAssemblytics

デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et…

アセンブリ結果を評価する CGAL

ゲノムアセンブリは、元のゲノムを再構成するために、ショットガン配列決定によって産生されたDNA配列の断片を合併するプロセスである。アセンブルの問題は、多数の式からNP困難であることが知られており[論文より ref.1〜3]、またシーケンシングエラー、実…

メイトペア情報を使いスキャホールドの誤りを検出する NxRepair

ゲノムのde novoアセンブリの一般的な方法は、de Bruijnグラフ(論文より Compeau、Pevzner&Tesler、2011)の構築に基づく。最も単純なケースでは、グラフはシングルエンドリードから構成されるが、シングルエンドのリードだけでは、de Bruijnグラフをもつ…

PCR duplicationの割合を推定する PCRduplicates

PCRはNGSのライブラリー調製プロトコールにおける重要なステップである。 PCR前のライブラリー中のユニークなDNA鋳型分子の数が少ない場合、またはユニークなDNAフラグメントを減らすライブラリー調製過程がある場合、いくつかのフラグメントは複数回シーケ…

RNA seqのクオリティコントロールツール RSeQC

RSeQCはクオリティ、GCバイアス、PCRバイアス、ヌクレオチド組成バイアス、シーケンスのデプス、strandの特異性、カバレッジ均一性およびゲノムのfeature上のカバレッジ分布など、RNA-seq実験を総合的に評価するパッケージ。SAMとBAMを入力として利用できる…

RNA seqのクオリティチェックツール QoRTs

RNA-Seqは特定のバイアス、エラー、アーチファクトを受けやすく、堅牢で包括的なクオリティコントロールが必要である。QoRTsは幅広いクオリティ分析マトリクスを出力する多機能ソフトウェアパッケージ。様々な角度からRNA seqデータの分析を行い、1つの図で…

イルミナのランディレクトリを分析する CheckQC

CheckQCはイルミナのdemultiplexした後のランフォルダを分析し、これ以上の解析に意味が必要か、意味がないか素早く調べることができるツール。基準を満たさないメトリックについての警告を返し、ランパフォーマンスを迅速に評価する。既存のワークフローに…

シングルセルシーケンスのカバレッジバイアスを見積もる Preseq

単一細胞レベルで変異を調べるには、単一細胞のシーケンス決定技術が必要になる。このシングルセルシーケンスの技術は、腫瘍細胞のシーケンスや未培養の細菌集団の細胞の多様性を調べるような研究にも用いられてきた。また、着床前遺伝子診断などに利用して…

ペアエンドリードを使いミスアセンブリを検出する misFinder

ミスアセンブルを検出するツールにはQuest、GAGEなどがあるが、これらのツールはミスアセンブルとリファンレスの違いを区別せず全て報告する。そのため、ミスアセンブルのみを検出するには通常さらなる工夫が必要になる。 一方、CGALやALE、REAPRはDe novoの…

リードをマッピングしてゲノムアセンブリの精度を評価する REAPR

REAPRは、リファレンスゲノムを使わずゲノムアセンブリの精度を評価するツール。カバレッジおよびインサートサイズの分布などのマッピング情報を分析して、ミスアセンブリの位置が特定される。 誤ったアセンブリはレポートされ、新しいアセンブリが出力され…

de novo transcriptome assembliesを評価する rnaQUAST

rnaQUASTはde novo transcriptomeのアセンブルパフォーマンスを比較するツール。リファレンスゲノムやtranscriptsのカタログにアセンブルした配列をアライメントし、様々な統計データをPDFで出力する。リファンレンスの遺伝子情報(gtf)がない時でも、ラン…

RNA seqのクオリティチェックツール QoRTs

RNA-Seqは特定のバイアス、アーティファクトを受けやすく、 堅牢で包括的なクオリティチェックが重要になる。とくにサンプル調製、ライブラリー作成、またはシークエンシングのエラーは、 予期せぬアーティファクト、バイアスを引き起こす。適切に処理できる…

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MulitiQC

今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり、プロジェクト全体で品質評価(クオリティチェック)するためのツールがなかった。プロジェクト全体で一貫した品質評価ができないと、チェック漏れが出てしまう恐…

Feature response courveによりアセンブルを評価するFRC_align

アセンブルのパフォーマンスを表す指標として N50やコンティグの数などがよく用いられているが、アセンブルの精度はこの値には反映されていない。FRC_alignは、Feature response courve: FRC(FRCを使ったアセンブル評価)を計算出力することで、異なるツー…

DNAでもRNAでも使える、複数サンプルのマッピングを同時比較できるGUIツール Qualimap2

公式サイト http://qualimap.bioinfo.cipf.es ユーザーマニュアル http://qualimap.bioinfo.cipf.es/doc_html/index.html ワークフロー http://qualimap.bioinfo.cipf.es/doc_html/workflow.html CUI環境でのラン。 http://qualimap.bioinfo.cipf.es/doc_htm…

リファレンスを使わないRNA seqのアセンブル評価ツール RSEM-EVAL(DETONATEパッケージ)

2018、8/9 誤字脱字修正 RNAシーケンシング(RNA-Seq)技術は、トランスクリプトームの大規模分析を可能にすることによって、ゲノムの配列がまだ決定されていない種の研究に革命をもたらしている。このようなトランスクリプトームを研究するためには、ゲノム…