de novo transcriptome
深くシークエンシングされ、de novoアセンブルされたトランスクリプトームのアノテーションは、最新のツールの中には動作が遅く、インストールが難しく、使いにくいものがあるため、依然として難題である。TransAnnotはトランスクリプトームのアノテーション…
2024/02/27 追記 信頼できるリファレンスゲノムを持たない生物種のRNAシーケンスデータからのトランスクリプトームアセンブリはde novoで行う必要があるが、de novo methodでは転写産物のアイソフォームを再構築する能力が不十分であることが多いことが研究…
ロングリードシーケンス技術は、その登場以来大きく進歩した。そのリードの長さは転写産物全体に及ぶ可能性があり、トランスクリプトームを再構築するのに有利である。既存のロングリードトランスクリプトームアセンブリ手法は、主にリファレンスベースであ…
RNA-seqとde novoトランスクリプトームアセンブリは、非モデル生物の生物学的研究に変革をもたらす技術であるが、RNA-seqデータの計算処理には、多くの異なるソフトウェアツールが必要である。このようなde novoトランスクリプトームワークフローの複雑さは…
RNA-seqリードからの転写産物アセンブルは、遺伝子発現やその後の機能解析において重要なステップとなる。本発表では、複数のRNA-seqサンプルを同時に解析するアプローチに基づく、正確かつ効率的なトランスクリプトアセンブラであるPsiCLASSを紹介する。Psi…
Trinityはバグ修正と性能改善のバージョンアップが続けられていて、2022年5月現在ではv2.14が利用できます。v2.14はまだcondaでは導入できないので、ソースからビルドします。 Installing Trinity https://github.com/trinityrnaseq/trinityrnaseq/wiki/Inst…
2022/02/21 画像追記 リファレンスゲノムを持たない非モデル生物のRNA-seqデータ解析では、計算時間とコストが依然として大きなボトルネックとなっている。この課題を解決するために、著者らは、トランスクリプトームde novoアセンブリを行わずにRNA-seqリー…
DEX-SeqをSupertranscriptsに適用することで、ある条件や処理に反応してリードカバレッジが統計的に有意な差を示す異なる転写産物セグメントを介して、 differential transcript usage(DTU)を探索することが可能。 TrinityツールキットのDTU解析のためのミ…
TrinotateとGOseq、Trinityのスクリプトを組み合わせることで、遺伝子セット間の機能的エンリッチメント解析を行うことができる。Trinityのマニュアルに習い、使い方を確認しておく。 インストール ubuntu18.04でtrinityの仮想環境を作ってテストした。Rのバ…
Trinityに付属するスクリプトrun_DE_analysis.plを使うと、BioconductorのRパッケージを使って発現変動遺伝子群を同定して分析することができる。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現行列ファイルを使う。 手順はTrinityのマニュ…
Trinityに付属するスクリプトPtRは、生物学的複製が十分に相関していることを確認し、またサンプル間の関係を調査するためのユーティリティツールである。Trinityのabundance_estimates_to_matrix.plなどを使って得た発現量の行列ファイルを使う。Trinityの…
Trinityに付属するスクリプトabundance_estimates_to_matrix.plは、align_and_estimate_abundance.plの出力を入力として、複数サンプルを(正規化しつつ)統合した発現行列ファイルを生成するスクリプト。Trinityのマニュアルに習い、使い方を確認しておく。…
bowtie2はマッピング結果の要約統計を標準エラー出力として報告する。Trinityのwikiでは、これを利用してde novo transcriptome assemblyを評価する流れがまとめられている。 RNA Seq Read Representation by Trinity Assembly · trinityrnaseq/trinityrnase…
トランスクリプトームの品質管理は、RNA-Seq実験において重要なステップである。しかし、de novo アセンブルされたトランスクリプトームの品質を評価することは、アセンブルを比較するリファレンスゲノムがないために困難である。本著者らは、キメラ配列の除…
RNA-Seq実験で得られたコンティグを含め、過去10年間に蓄積された配列情報は飛躍的に増加しており、リードデータをアセンブルする際にはキメラ配列の定量が必須となっている。トランスクリプトームでは、de novoでアセンブリされたキメラは、基本的な転写産…
タンパク質の翻訳プログラムでは、転写産物の中で最も長いオープンリーディングフレーム(ORF)が選択されることが多いため、データベースには不正確なORFや誤ってアノテーションされたORFが多数存在する。早期終止コドン(PTC)を含む非生産的な転写産物の…
2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新, 7/3 追記, 7/20 追記 2024/03/07 追記, 3/16 BUSCOv5.7.0について追記、06/10 誤字修正 ゲノムデータやメタゲノムデータの品質を評価する方法は、ゲノムアセンブリを助け…
遺伝子の自動機能アノテーションは、ほとんどのゲノムおよびメタゲノムワークフローにおいて基本的なステップであるにもかかわらず、大規模なスケールでは依然として困難である。本研究では、事前に計算されたorthology assignmentsに基づいて機能アノテーシ…
2021 6/4 更新 RNA-Seqデータの利用とde novoトランスクリプトームアセンブリの生成は、生態学と進化学の研究において重要な役割を果たしてきた。これは、ゲノム情報が利用できない非モデル生物に顕著に当てはまる。しかしながら、遺伝子発現の差異の研究、D…
トランスクリプトームの解析には、次世代シーケンシング技術を用いたRNAシーケンシングが有効である。de novoゲノムアセンブリと同様に、de novoトランスクリプトームアセンブリは、リファレンスゲノムや追加のアノテーション情報に依存しないが、より困難で…
RNA-Seq解析やトランスクリプトームのアノテーションにおいて、de-novoでアセンブルされたトランスクリプトームのORF予測は重要なステップである。しかし、現在のアプローチでは、ストランド特異性や不完全に組み立てられた転写産物などの要因を適切に考慮し…
2021 9/1 論文追記 2022/12/27 追記 真核生物の遺伝子アノテーションは、蓄積された転写産物のデータを緻密に解析する必要があり、簡単な作業ではない。真核生物の遺伝子アノテーションには、重複する遺伝子を含むゲノムの転写活性領域、多数の転写産物を産…
シングルセルRNAシーケンス(scRNA-seq)技術はここ10年で急速に進歩したが、シングルセル・トランスクリプトーム解析のワークフローでは、主に遺伝子発現データが用いられており、シングルセルレベルでのアイソフォーム配列解析はまだかなり限定的である。…
2021 1/9 タイトル修正、1/15 コマンドと説明追記、4/27 ベンチマーク論文追加2021 10/8 2021 10/8 gzipped fastqのオプション追記 2024/12/11 strandnessのエラーについて(*3) RNA-Seqは転写産物の量を測定する方法に革命を起こしている。RNA-Seqデータか…
2022/12/29 コマンド修正 2024/01/16 誤字修正, 2024/087/21 補足追加 人の文章ばかり載せているので、たまには自分の言葉で書いてみる。 ハイスループットシークエンシングのコストは年々下がっているが、それでも高品質なゲノム配列の解読と遺伝子予測、機…
Trinityに付属するスクリプトfilter_low_expr_transcripts.plは、align_and_estimate_abundance.plの出力(Bowtieアライナーを使用してRNA-SeqリードをTrinity転写物にアラインし、その後、RSEMを使って確率的アプローチでアバンダンス推定を実行した結果の…
2021 12/25追記 Trinityに付属するスクリプトalign_and_estimate_abundance.plは、最初にBowtieアライナーを使用してRNA-SeqリードをTrinity転写物にアラインし、その後、RSEMを使ってアバンダンス推定を実行する。 RSEMは、isoformなどの一意にリードをマッ…
2021 2/13 論文引用、help更新、実行例追記 転写物中のORFを検索することは、新たに配列決定されたゲノム中のコーディング領域をアノテーションする前の重要なステップであり、既知の遺伝子内の代替リーディングフレームを検索するための重要なステップであ…
2021 10/1 論文引用 ハイスループットシーケンシングの進歩は、RNA-Seqトランスクリプトームデータの膨大な増加をもたらした。しかし、特定の組織、状態、単細胞生物、微生物群集での迅速な遺伝子発現プロファイリングが期待されているが、新たな計算上の課…
2020 7/23 説明追加 EukProtは、公開されている予測タンパク質セットと、真核生物の多様性を表すために選択された非注釈ゲノムのデータベースで、すべての主要なスーパーグループからの742種とorphan taxaを含む。系統図、遺伝子ファミリー進化、その他の遺…