タンパク質の翻訳プログラムでは、転写産物の中で最も長いオープンリーディングフレーム(ORF)が選択されることが多いため、データベースには不正確なORFや誤ってアノテーションされたORFが多数存在する。早期終止コドン(PTC)を含む非生産的な転写産物のアイソフォームは、nonsense-mediated decay(NMD)(wiki)の基質となる可能性がある。これらの転写産物には切断されたORFが含まれていることが多いが、本物の翻訳開始AUGを含む転写産物にもかかわらず、PTCの下流のAUGから始まる長いORFが選択されるため、誤ったアノテーションがなされている。遺伝子発現やオルタナティブスプライシングの解析では、異なるタンパク質バリアントをコードする転写産物のアイソフォームを同定し、これらを潜在的なNMD基質と区別することが重要である。TranSuiteは、これらの課題を解決するために開発されたバイオインフォマティクスツールであり、正確な翻訳、オルタナティブORFの特性評価、新規および既存のトランスクリプトームに含まれる転写産物のNMDおよびその他の特徴の特定を行う。シロイヌナズナのトランスクリプトームを対象に、TranSuiteとTransDecoderで定義されたORFを直接比較したところ、AtRTD2(Arabidopsis Thaliana Reference Transcript Dataset 2)ではTransDecoderで16k以上(27%)の転写産物でORFのミスコーリングが確認された。
インストール
依存
TranSuite has been developed in Python 3.6
- BioPython v1.78
#conda (link)
mamba create -n TranSuite -y
conda activate TranSuite
mamba install -c anaconda biopython==1.78
git clone https://github.com/anonconda/TranSuite.git
cd TranSuite/
> python transuite.py -h
usage: TranSuite [-h] [-v] {FindLORF,TransFix,TransFeat,Auto} ...
Description:
TranSuite is a suite of software logger for the identification, annotation, translation, and feature characterization of annotated transcripts.
positional arguments:
{FindLORF,TransFix,TransFeat,Auto}
FindLORF FindLORF find the longest ORF of a transcript and annotates it as its putative CDS.
TransFix TransFix fix the same start codon for all transcripts in a gene, translate them, and annotates the resulting CDS.
TransFeat TransFeat infer coding-related characteristics from the annotate transcript features.
Auto This module executes FindLORF, TransFix, and TransFeat in tandem.
optional arguments:
-h, --help show this help message and exit
-v, --version show program's version number and exit
> python transuite.py FindLORF -h
$ python transuite.py FindLORF -h
usage: TranSuite FindLORF [-h] [--gtf GTF] [--fasta FASTA] [--cds CDS_TH] [--outpath OUTPATH] [--outname OUTNAME]
optional arguments:
-h, --help show this help message and exit
--gtf GTF Transcriptome annotation file in GTF format.
--fasta FASTA Transcripts fasta file (nucleotide sequence of exonic regions).
--cds CDS_TH Minimum number of amino-acids an ORF must have to be considered as a potential CDS. Default: 30 AA.
--outpath OUTPATH Path of the output folder.
--outname OUTNAME Prefix for the output files.
実行方法
FindLORFS、TransFix、TransFeat の順番に進める。これらを一括してランする"All"コマンドも用意されている。
FindLORF
新規に作成されたトランスクリプトームアノテーションに含まれるORF情報を同定し、アノテーションをつける。FindLORFは各転写産物の配列を、アノテーションされたストランドに従って3フレームで翻訳し、得られた全てのORFの相対的な開始コドンと停止コドンの位置を保存する。次に、各転写産物の最長ORFをその推定CDS領域として選択する。最後に、トランスクリプトームアノテーションに含まれるゲノム情報を用いてCDSをアノテーションし、転写産物の配列における相対的なORFの開始-停止コドン位置をゲノム座標に変換する。
ランするには、キュレートされるトランスクリプトームアノテーション(GTF形式)および転写産物のエクソン配列(FASTA形式)を指定する。
#test run
python transuite.py FindLORF --gtf test_dataset/subset_AtRTD2_exons.gtf --fasta test_dataset/subset_AtRTD2_transcripts.fa --outpath outdir --outname outprefix
TransFix
TransFixは、正しい遺伝子の翻訳開始点を選択し、その位置を「固定」して、その位置を使って遺伝子の転写物を翻訳し、翻訳結果のCDSをアノテーションすることで、より生物学的に正しい翻訳情報を提供する。ここで、正しい翻訳開始点とは、その遺伝子の完全長のタンパク質を生成するために使用される部位と定義される。TransFixは、まず、トランスクリプトーム・アノテーションから転写産物のCDS座標を抽出し、転写産物をその起源となる遺伝子に応じてグループ化する。次に、TransFixは、遺伝子内で最も長いCDSの開始コドンを代表的な翻訳開始点として選択し、その「固定」翻訳開始点から遺伝子内のすべての転写物を翻訳する。最後に、TransFixは結果として生じる停止コドンのゲノム上の座標をアノテーションする。場合によっては、転写産物のアイソフォームが、ASイベントや代替転写開始点のために「固定」翻訳開始点を含まないことがある。これを考慮して、TransFixは最初の固定AUG/翻訳サイクルで翻訳されなかった転写産物を追跡し、次に2回目の固定AUG/翻訳サイクルで処理して、有効な翻訳開始点を決定してアノテーションする。
python transuite.py FindLORF --gtf input.gtf --fasta input_transcripts.fa --outpath outdir --outname outprefix --cds 30
TransFeat
TransFeatは、トランスクリプトームアノテーションに含まれるトランスクリプトCDS情報を抽出・処理し、遺伝子、トランスクリプト、およびそのコーディングポテンシャルの複数の特性を推定し(レポジトリ図2)、それらの情報をアクセスしやすい形式で報告する。
python transuite.py FindLORF --gtf input.gtf --fasta input_transcripts.fa --outpath outdir --outname outprefix --cds 30
エラーが起きる。ランできるようになったら追記します。
引用
TranSuite: a software suite for accurate translation and characterization of transcripts
Juan C. Entizne, Wenbin Guo, Cristiane P.G. Calixto, Mark Spensley, Nikoleta Tzioutziou, Runxuan Zhang, John W.S. Brown
bioRxiv, Posted December 16, 2020