macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

RNA seq

アセンブリ結果を評価するwebサービス gVolante

全ゲノムやトランスクリプトームなどの包括的な配列情報へのアクセスが増加するとともに、それらの品質を評価する必要性が高まっている。N50などのシーケンス長に基づくメトリックが標準になったが、これはアセンブリ品質の1つの側面のみを評価する。逆に、…

カバレッジトラックを視覚化する SparK

2020 3/1 コマンド修正 Integrative Genomics Viewer(IGV)やUCSCゲノムブラウザなど、NGSデータの表示に利用できる洗練されたリソースが存在するが、領域のエクスポートとpublication用の図の組み立ては依然として困難である。特に、トラックの外観のカス…

CAARS

大規模なRNAシーケンス(RNA-Seq)は、ゲノムシーケンスの実用的な代替手段として、特に比較分析のために非モデル種でよく使用される(Ozsolak and Milos、2011; Todd et al、2016; Wang et al 、2009)。しかし、トランスクリプトームアッセイのショートリ…

ONT cDNA ロングリードのエラー修正を行うisONcorrect

ロングリードを使用したトランスクリプトームシーケンスは、細胞の転写ランドスケープを理解するための強力な方法であることが証明されている(Wyman et al、n.d .; Bayega et al、2018; Byrne、Cole、et al、2019)。ロングリードテクノロジーにより、ほと…

WikiPathwaysのCytoscapeプラグイン WikiPathways App for Cytoscape

このホワイトペーパーでは、Cytoscape用のオープンソースWikiPathwaysアプリ(http://apps.cytoscape.org/apps/wikipathways)を紹介する。WikiPathwaysアプリは、データの視覚化とネットワーク分析のためにバイオロジカルパスウェイをインポートするために…

StringTie2

RNAシーケンス(RNAシーケンス)データセット内の転写産物の量を測定することは、細胞の働きを理解するための強力な方法である。リードをリファレンスゲノムに合わせるだけで、遺伝子の平均発現の大まかな推定値が得られ、スプライス部位の異なる使用のヒン…

RNA seqのライブラリタイプを推測する GUESSmyLT

ショートリードRNAシーケンシング(RNA-seq)は、特に遺伝子発現の調査、ゲノムアノテーションの実行、SNVの検出、またはオルタナティブスプライシングされた転写物の確認を可能にする強力なアプローチである。シーケンスリードには、使用するRNA-seqライブ…

植物のRNA seqデータからvirus配列を検出する Kodoja

ウイルス感染は、食物と燃料のために栽培される作物で特に重要な問題である。ウイルスは収量と品質の大きな損失を引き起こし、その結果、ウイルスは重要な経済的悪影響を及ぼす[ref.1]。英国では、ポテトウイルスYは年間3,000〜4,000万ポンドのジャガイモの…

RNA seqのクオリティメトリクスを提供する RNA-SeQC

RNA-seqは、細胞のトランスクリプトーム全体の特性評価を提供する。シーケンスのパフォーマンスとライブラリの品質の評価は、RNA-seqデータの解釈に不可欠だが、この問題に対処するツールはほとんない(論文執筆時点)。ここではデータ品質の重要な指標を提…

IRIS-EDA(立ち上げだけ紹介)

生物学的システムの統合モデルを構築し、疾病を予防または治療するための実現可能な戦略を考案するには、適切な実験計画法とインタラクティブなインタフェースを備えた高度な計算ツールが必要である。 RNA-Seqは膨大な量の遺伝子発現データを作成しており、…

共通/非共通の要素をベン図で視覚化し、抽出する jvenn

ハイスループットの生物学は、ますます複雑な実験計画で、データの数を増やしている。これらのデータの分析では、多くの場合、遺伝子名やOTU(Operational Taxonomic Unit)を含む生物学的識別子のリストが生成される。これらは異なる方法(微分分析)または…

ロングリードRNA seqのアライナー Graphmap2

オックスフォードナノポアテクノロジー(ONT)[ref.1]やパシフィックバイオサイエンス(PacBio)[ref.2]などの企業が達成したシーケンシングテクノロジーの進歩により、長さが10 kbpを超えるロングリードが生成される。当初、このようなロングリードのエラー…

IDBA-UD

次世代シーケンシングにより、シングルセルシーケンシングまたはメタゲノムシーケンシングテクノロジーを使用して、微生物環境のシーケンシングができる。しかし、両方の技術には、ゲノムの異なる領域または異なる種のゲノムのシーケンシングデプスが非常に…

DAVIDデータベース

2019 10/20 誤字修正 2019 10/26タイトル修正 従来の生物学的研究アプローチでは、通常、一度に1つの遺伝子またはいくつかの遺伝子を研究する。対照的に、ハイスループットゲノム、プロテオミクス、およびバイオインフォマティクススキャニングアプローチ(…

GFF ファイルのユーティリティ Gffread

2019 10/15 誤字修正 多くのバイオインフォマティクスプログラムは、遺伝子および転写産物をGFF形式(General Feature Format)で表し、ゲノム上の遺伝子および転写産物の特徴(染色体またはscaffolds/contigs)の位置と属性を簡単に説明する。GFFには多くの…

8章 補足資料1

2020 2/2 追記 章末補足資料 1、どのアノテーション情報を使うか よく研究された大腸菌であっても、数百以上の様々なゲノムが登録されている。同じ系統の株でもGene IDなどは統一されていない。そのため、100%塩基配列が同じゲノムと考えてわずかに違う株の…

ヒトとマウスの様々なアライナー用indexをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラインメントとアノテーションを…

bamファイルを使ってDNA/RNAシーケンスのピーク定量やbigwigのcoverage trackを作成する BAMscale

2020 1/14 conda追記 BAMscaleは、chromatin binding(ChIP-seq)およびクロマチン状態変化(ATAC-seq、END-seq)やchromatin state changes(ATAC-seq, END-seq)、RNA seqのシーケンシングデータセットを処理するワンステップツールである 。 出力には、テ…

de novo transcriptomeのアセンブリツール TransLiG

オルタナティブスプライシングは真核生物遺伝子における遺伝子調節の重要な形態であり、遺伝子機能の多様性ならびに疾患のリスクを増大させる[ref.1、2、3]。報告されているように[ref.4]、[ref.5]、ヒト遺伝子を含む真核生物遺伝子のほとんどはオルタ…

de novo transcriptome解析のクラスタリングとclosely rellatedな種の情報を用いたアノテーションを行う Grouper

シーケンシング技術の進歩により、モデル生物の範囲を超えてトランスクリプトームを効率的かつ正確に探索することが可能になった(Ekblom and Galindo、2011; Marioni et al、2008)。トランスクリプトームシークエンシングは、高品質のリファレンスゲノムを…

(Omics向け) 従来のベン図表現を拡張する DiVenn

ハイスループットデータ技術の進歩により、詳細な分析なしに膨大な量の遺伝子発現データが生成されてきた。例えば、INVEX (Xia et al., 2013)、ExAtlas (Sharov et al., 2015)、そしてWebGIVI (Sun et al., 2017)などのいくつかのウェブベースの視覚化ツール…

環状RNA(circRNAs)を検出する ACValidator

環状RNA(circRNAs)は、エキソンが互いにバックスプライスするときに形成される進化的に保存されたRNA分子種である。これらのバックススプライシングジャンクションを検出するための現在の計算アルゴリズムは分岐した結果を生じるので、それ故、真のポジテ…

ショートリードとロングリードのhybrid-assemblyにより de novo transcriptomeアセンブリを行う IDP-denovo

新世代のシークエンシング技術がトランスクリプトームの探索において実質的な進歩をもたらすにつれて、スプライス検出および転写物再構成などの関連するバイオインフォマティクス方法が数多く開発され、様々な種で広く使用されてきた(Grabherr et al、2011;…

転写領域アノテーションのためSRAのデータをサンプリングしてマッピング率等を評価する VARUS

2019 6/3 何も表示されないバグを修正 非常に大量の次世代シークエンシング(NGS)データがNCBIのシークエンスリードアーカイブ(SRA)[ref.1]やENA[ref.2]などの公共のデータベースに保管されている。これを書いている時点で、2019年3月に、SRAは約2.7 * 10…

RNA seqデータの正規化を行いアセンブリ負荷を軽減する ORNA

2019 5/17 誤字修正 シーケンサのスループットの増加および価格の低下に伴い、高カバレッジシーケンシングデータセットの生成は日常的になっている。これは、ゲノムおよびトランスクリプトームのデノボアセンブリのためのいくつかの異なるアプローチの開発を…

SRAのRNA seqデータを素早く比較・分析する Digital expression explorer 2(手持ちのデータにも対応)

10年前の最初の記述以来、RNAシーケンス(RNA-seq)はトランスクリプトームにおける強力な方法となり、非常に正確な遺伝子発現の定量を可能にした[ref.1]。シークエンシングのコストが下がるにつれて、RNA seqのデータは科学文献でより一般的になりつつある…

genome trackを可視化する svist4get

次世代シークエンシングは、生命科学の複数のハイスループットな方法を生み出した。その多くは、既存のゲノムアセンブリへのショートリードのマッピングに基づいている。マッピングされたリードの密度および計算により得られたゲノムシグナルトラックの可視…

スプライシングジャンクションを上手く処理できるエラーの多いロングリードRNA seqのアライナーdeSALT

2019 12/17 論文追記 RNAシークエンシングはトランスクリプトームを特徴付けるための基本的なアプローチとなっている。正確な遺伝子構造を明らかにし、遺伝子/転写産物の発現を定量できる[ref.1-5]、さらにバリアントコーリング[ref.6]、RNA edit/ng解析[ref…

複数のtranscritome情報(gtf)をマージする TACO

ハイスループットRNAシークエンシング(RNA-Seq)により、トランスクリプトームの詳細な理解が可能になった(ref.1–3)。手動および自動システムによる high fidelityな遺伝子モデルアノテーションの試みは、主にロースループットシークエンシング法(ref.4–…

illuminaのショートリードシミュレータ Sandy(RNA seqにも対応)

Sandyは、与えられたfastaファイルからシングルエンド/ペアエンドのリードを生成するシンプルなバイオインフォマティックツールである。多くの次世代シーケンシング分析は、実際には正確には満足されていない仮説モデルおよび原理に依存している。ポジティブ…