スーパートランスクリプトとは、 重複のない遺伝子のすべてのエキソン配列が含まれる各遺伝子の代替の表現方法である。SuperTranscriptは、スプライシングアイソフォーム間でユニークな配列領域と共通する配列領域を1つの直線的な配列にまとめることで構築される。Nadia Davidsonらのオリジナルの論文によると、”superTranscriptsの構築は、非モデル生物(図1c)のための多数の分析アプローチを解くことを約束する簡単なポストアセンブリステップである。”とある。
Trinity toolkitでは、このSuperTranscriptsを構築するためのユーティリティを提供している。これは、Trinityがアセンブル時に活用する遺伝子とアイソフォームの関係や配列グラフ構造に基づいて作成される。SuperTranscriptは、ゲノムフリーde novoトランスクリプトーム組み立ての文脈で有用である。
Trinityのマニュアルに習い、使い方を確認しておく。
インストール
ubuntu18.04でtrinityの仮想環境を作ってテストした。
mamba create -n trinity python=3.8
conda activate trinity
mamba install -c bioconda -y trinity
> Trinity_gene_splice_modeler.py -h
usage: Trinity_gene_splice_modeler.py [-h] --trinity_fasta TRINITY_FASTA
[--out_prefix OUT_PREFIX]
[--incl_malign] [--debug] [--verbose]
[--no_squeeze] [--no_refinement]
[--incl_cdna] [--incl_dot]
[--restrict_gene_id RESTRICT_GENE_ID]
Converts Trinity Isoform structures into a single gene structure
representation
optional arguments:
-h, --help show this help message and exit
Trinity.fasta file (default: )
--out_prefix OUT_PREFIX
output prefix for fasta and gtf outputs (default:
trinity_genes)
--incl_malign include multiple alignment formatted output file
(default: False)
--debug debug mode (default: False)
--verbose verbose mode (default: False)
--no_squeeze don't merge unbranched stretches of node identifiers
(default: False)
--no_refinement don't refine splice graph by further collapsing
allelic variants (default: False)
--incl_cdna rewrite Trinity fasta file using simplified graph
structure (default: False)
--incl_dot include dot file for gene graph (*warning* single dot
file per gene!! use sparingly) (default: False)
--restrict_gene_id RESTRICT_GENE_ID
only process this gene (default: None)
実行方法
Trinityのアセンブリ結果(フィルタリングしてないもの)を指定する。
Trinity_gene_splice_modeler.py --trinity_fasta Trinity.fasta
supertranscriptsであるtrinity_genes.fastaファイル(fasta形式)が出力される。テストした配列ではおよそ半分の配列数になった。平均長とN50は少しだけ短くなった。
Trinityのマニュアルでは、SuperTranscriptsを使った発現解析の手順も説明されています。
https://github.com/trinityrnaseq/trinityrnaseq/wiki/DiffTranscriptUsage
SuperTranscriptsはリファレンスゲノムがない場合に転写産物の特性を調べるのに有効だが、マニュアルによると、ノイズやバイアスもあるので注意するように呼びかけられている。下の論文が参照されている。
引用
De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis
Brian J Haas, Alexie Papanicolaou, Moran Yassour, Manfred Grabherr, Philip D Blood, Joshua Bowden, Matthew Brian Couger, David Eccles, Bo Li, Matthias Lieber, Matthew D MacManes, Michael Ott, Joshua Orvis, Nathalie Pochet, Francesco Strozzi, Nathan Weeks, Rick Westerman, Thomas William, Colin N Dewey, Robert Henschel, Richard D LeDuc, Nir Friedman , Aviv Regev
Nat Protoc. 2013 Aug;8(8):1494-512
関連