タンパク質の翻訳プログラムでは、転写産物の中で最も長いオープンリーディングフレーム(ORF)が選択されることが多いため、データベースには不正確なORFや誤ってアノテーションされたORFが多数存在する。早期終止コドン(PTC)を含む非生産的な転写産物のアイソフォームは、nonsense-mediated decay(NMD)(wiki)の基質となる可能性がある。これらの転写産物には切断されたORFが含まれていることが多いが、本物の翻訳開始AUGを含む転写産物にもかかわらず、PTCの下流のAUGから始まる長いORFが選択されるため、誤ったアノテーションがなされている。遺伝子発現やオルタナティブスプライシングの解析では、異なるタンパク質バリアントをコードする転写産物のアイソフォームを同定し、これらを潜在的なNMD基質と区別することが重要である。TranSuiteは、これらの課題を解決するために開発されたバイオインフォマティクスツールであり、正確な翻訳、オルタナティブORFの特性評価、新規および既存のトランスクリプトームに含まれる転写産物のNMDおよびその他の特徴の特定を行う。シロイヌナズナのトランスクリプトームを対象に、TranSuiteとTransDecoderで定義されたORFを直接比較したところ、AtRTD2(Arabidopsis Thaliana Reference Transcript Dataset 2)ではTransDecoderで16k以上(27%)の転写産物でORFのミスコーリングが確認された。
TranSuite has been developed in Python 3.6
- BioPython v1.78
#conda (link)
mamba create -n TranSuite -y
conda activate TranSuite
mamba install -c anaconda biopython==1.78
git clone https://github.com/anonconda/TranSuite.git
cd TranSuite/
> python transuite.py -h
usage: TranSuite [-h] [-v] {FindLORF,TransFix,TransFeat,Auto} ...
TranSuite is a suite of software logger for the identification, annotation, translation, and feature characterization of annotated transcripts.
positional arguments:
FindLORF FindLORF find the longest ORF of a transcript and annotates it as its putative CDS.
TransFix TransFix fix the same start codon for all transcripts in a gene, translate them, and annotates the resulting CDS.
TransFeat TransFeat infer coding-related characteristics from the annotate transcript features.
Auto This module executes FindLORF, TransFix, and TransFeat in tandem.
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
> python transuite.py FindLORF -h
$ python transuite.py FindLORF -h
usage: TranSuite FindLORF [-h] [--gtf GTF] [--fasta FASTA] [--cds CDS_TH] [--outpath OUTPATH] [--outname OUTNAME]
optional arguments:
-h, --help show this help message and exit
--gtf GTF Transcriptome annotation file in GTF format.
--fasta FASTA Transcripts fasta file (nucleotide sequence of exonic regions).
--cds CDS_TH Minimum number of amino-acids an ORF must have to be considered as a potential CDS. Default: 30 AA.
--outpath OUTPATH Path of the output folder.
--outname OUTNAME Prefix for the output files.
FindLORFS、TransFix、TransFeat の順番に進める。これらを一括してランする"All"コマンドも用意されている。
#test run
python transuite.py FindLORF --gtf test_dataset/subset_AtRTD2_exons.gtf --fasta test_dataset/subset_AtRTD2_transcripts.fa --outpath outdir --outname outprefix
python transuite.py FindLORF --gtf input.gtf --fasta input_transcripts.fa --outpath outdir --outname outprefix --cds 30
python transuite.py FindLORF --gtf input.gtf --fasta input_transcripts.fa --outpath outdir --outname outprefix --cds 30
TranSuite: a software suite for accurate translation and characterization of transcripts
Juan C. Entizne, Wenbin Guo, Cristiane P.G. Calixto, Mark Spensley, Nikoleta Tzioutziou, Runxuan Zhang, John W.S. Brown
bioRxiv, Posted December 16, 2020