macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

supertranscriptsを構築するTrinityのTrinity_gene_splice_modeler.pyスクリプト

 

 スーパートランスクリプトとは、 重複のない遺伝子のすべてのエキソン配列が含まれる各遺伝子の代替の表現方法である。SuperTranscriptは、スプライシングアイソフォーム間でユニークな配列領域と共通する配列領域を1つの直線的な配列にまとめることで構築される。Nadia Davidsonらのオリジナルの論文によると、”superTranscriptsの構築は、非モデル生物(図1c)のための多数の分析アプローチを解くことを約束する簡単なポストアセンブリステップである。”とある。

 Trinity toolkitでは、このSuperTranscriptsを構築するためのユーティリティを提供している。これは、Trinityがアセンブル時に活用する遺伝子とアイソフォームの関係や配列グラフ構造に基づいて作成される。SuperTranscriptは、ゲノムフリーde novoトランスクリプトーム組み立ての文脈で有用である。

Trinityのマニュアルに習い、使い方を確認しておく。

 


インストール

ubuntu18.04でtrinityの仮想環境を作ってテストした。

Github

mamba create -n trinity python=3.8
conda activate trinity
mamba install -c bioconda -y trinity

>  Trinity_gene_splice_modeler.py -h

usage: Trinity_gene_splice_modeler.py [-h] --trinity_fasta TRINITY_FASTA

                                      [--out_prefix OUT_PREFIX]

                                      [--incl_malign] [--debug] [--verbose]

                                      [--no_squeeze] [--no_refinement]

                                      [--incl_cdna] [--incl_dot]

                                      [--restrict_gene_id RESTRICT_GENE_ID]

 

Converts Trinity Isoform structures into a single gene structure

representation

 

optional arguments:

  -h, --help            show this help message and exit

  --trinity_fasta TRINITY_FASTA

                        Trinity.fasta file (default: )

  --out_prefix OUT_PREFIX

                        output prefix for fasta and gtf outputs (default:

                        trinity_genes)

  --incl_malign         include multiple alignment formatted output file

                        (default: False)

  --debug               debug mode (default: False)

  --verbose             verbose mode (default: False)

  --no_squeeze          don't merge unbranched stretches of node identifiers

                        (default: False)

  --no_refinement       don't refine splice graph by further collapsing

                        allelic variants (default: False)

  --incl_cdna           rewrite Trinity fasta file using simplified graph

                        structure (default: False)

  --incl_dot            include dot file for gene graph (*warning* single dot

                        file per gene!! use sparingly) (default: False)

  --restrict_gene_id RESTRICT_GENE_ID

                        only process this gene (default: None)

 

実行方法

Trinityのアセンブリ結果(フィルタリングしてないもの)を指定する。

Trinity_gene_splice_modeler.py --trinity_fasta Trinity.fasta

supertranscriptsであるtrinity_genes.fastaファイル(fasta形式)が出力される。テストした配列ではおよそ半分の配列数になった。平均長とN50は少しだけ短くなった。

 

Trinityのマニュアルでは、SuperTranscriptsを使った発現解析の手順も説明されています。

https://github.com/trinityrnaseq/trinityrnaseq/wiki/DiffTranscriptUsage

 

SuperTranscriptsはリファレンスゲノムがない場合に転写産物の特性を調べるのに有効だが、マニュアルによると、ノイズやバイアスもあるので注意するように呼びかけられている。下の論文が参照されている。


引用

De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis

Brian J Haas, Alexie Papanicolaou, Moran Yassour, Manfred Grabherr, Philip D Blood, Joshua Bowden, Matthew Brian Couger, David Eccles, Bo Li, Matthias Lieber, Matthew D MacManes, Michael Ott, Joshua Orvis, Nathalie Pochet, Francesco Strozzi, Nathan Weeks, Rick Westerman, Thomas William, Colin N Dewey, Robert Henschel, Richard D LeDuc, Nir Friedman , Aviv Regev

Nat Protoc. 2013 Aug;8(8):1494-512

 

関連