macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

DEXseqを使ってSuperTranscriptsの発現解析を行うTrinityのdexseq_wrapper.plスクリプト

 

DEX-SeqをSupertranscriptsに適用することで、ある条件や処理に反応してリードカバレッジが統計的に有意な差を示す異なる転写産物セグメントを介して、 differential transcript usage(DTU)を探索することが可能。

TrinityツールキットのDTU解析のためのミニパイプラインdexseq_wrapper.pl は、SuperTranscriptsのリードをアライメントし、「エクソン」領域にアライメントしたリードをカウントし、exonレベルの差分発現解析を実行するたのに利用できる。

Trinityのマニュアルに習い、使い方を確認しておく。

(DEXseqとともにアライナーのSTARやHISAT2をラップしたTrinityスクリプト内にカプセル化されており、依存ツールがインストールされていれば実行出来る)

 

インストール

ubuntu18.04でtrinityの仮想環境を作ってテストした。

依存

  • Trinity
  • Subreadパッケージに含まれるfeatureCountsソフトウェア
  • STARまたはHISAT2アライナー
  • htseq
  • DEXseq

Github

mamba create -n trinity python=3.8
conda activate trinity
mamba install -c bioconda -y trinity

mamba install -c bioconda -y htseq hisat2 star subread

> trinityrnaseq/Analysis/SuperTranscripts/DTU/dexseq_wrapper.pl

#################################################################

#

#  Required:

#

#  --genes_fasta <string>     Trinity genes fasta files

#

#  --genes_gtf <string>       Trinity genes gtf file

#

#  --samples_file <string>            Trinity samples file

#

#  --aligner <string>         aligner to use: STAR|HISAT2

#

#  Optional:

#

#  --out_prefix <string>             default: 'dexseq'

#

#  --SS_lib_type <string>            strand-specific library type 'RF|FR|R|F'

#

#  --CPU <int>                       default: 2

#

#  --top_genes_plot <int>            default: 50

# 

# ## STAR-specific

#

#  --genomeSAindexNbases <int>   param for STAR, default computed as: min(18, int(log((-s $genome) / $num_contigs) / log(2) + 0.5) )                           # 

#

#

################################################################

 

 

実行方法

1、Trinityのアセンブリからsupertranscripts構築する(前回の記事)。

Trinity_gene_splice_modeler.py --trinity_fasta Trinity.fasta

trinity_genes.gtfとtrinity_genes.fastaが出力される。

 

2、dexseq_wrapper.plのラン

ランにはリストファイルが必要。リストファイルはTrinityの他のスクリプトの時と同様、サンプルグループ名<tab>反復名<tab>ペアエンドR1<tab>ペアエンドR2、のタブ区切りファイルで書く(シングルエンドなら4列目は不要)。

cond_A    cond_A_rep1    A_rep1_left.fq    A_rep1_right.fq
cond_A    cond_A_rep2    A_rep2_left.fq    A_rep2_right.fq
cond_B    cond_B_rep1    B_rep1_left.fq    B_rep1_right.fq
cond_B    cond_B_rep2    B_rep2_left.fq    B_rep2_right.fq

 

dexseq_wrapperをランする。DTU解析のためのこのパイプラインは、SuperTranscriptsのリードをアライメントし、exonレベルの差分発現解析を実行する。

git clone https://github.com/trinityrnaseq/trinityrnaseq.git

perl trinityrnaseq/Analysis/SuperTranscripts/DTU/dexseq_wrapper.pl \
--genes_fasta trinity_genes.fasta \
--genes_gtf trinity_genes.gtf \
--samples_file list \
--out_prefix DTU --aligner HISAT2 --CPU 20
  • --genes_fasta <string>    Trinity genes fasta files
  • --genes_gtf <string>       Trinity genes gtf file
  • --samples_file <string>   Trinity samples file
  • --aligner <string>    aligner to use: STAR|HISAT2
  • --SS_lib_type <string>  strand-specific library type 'RF|FR|R|F'
  • --CPU <int>     default: 2
  • --out_prefix <string>   default: 'dexseq'

f:id:kazumaxneo:20211229005118p:plain

f:id:kazumaxneo:20211229005130p:plain

f:id:kazumaxneo:20211229005150p:plain


出力の詳細はマニュアルを確認して下さい。

引用

De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis

Brian J Haas, Alexie Papanicolaou, Moran Yassour, Manfred Grabherr, Philip D Blood, Joshua Bowden, Matthew Brian Couger, David Eccles, Bo Li, Matthias Lieber, Matthew D MacManes, Michael Ott, Joshua Orvis, Nathalie Pochet, Francesco Strozzi, Nathan Weeks, Rick Westerman, Thomas William, Colin N Dewey, Robert Henschel, Richard D LeDuc, Nir Friedman , Aviv Regev

Nat Protoc. 2013 Aug;8(8):1494-512

 

関連