macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

de-novo assembled transcriptomeのORF予測を行う Borf

 

 RNA-Seq解析やトランスクリプトームのアノテーションにおいて、de-novoでアセンブルされたトランスクリプトームのORF予測は重要なステップである。しかし、現在のアプローチでは、ストランド特異性や不完全に組み立てられた転写産物などの要因を適切に考慮していない。ストランド特異的なRNA-Seqライブラリは、センス方向にアセンブルされた転写物を生成する必要があるため、ORFはセンスストランドにのみアノテーションされるべきである。さらに、最初の開始コドンの上流にある配列は、完全にアセンブリされた転写産物では5'UTRとして、不完全な転写産物ではメインORFの一部として正しくアノテーションされる必要があるため、開始サイトの選択は予想以上に複雑である。これらの要因は、ORFの正確なアノテーション、ひいてはトランスクリプトーム全体のアノテーションに影響を与える。著者らは、実際のデータにおいて、ストランド特異性と開始点の選択がORF予測に与える影響を検証するために、ゴールドスタンダードのデータセットとして、よくアノテーションされた種の4つのde-novoトランスクリプトームアセンブリを作成した。その結果、stranded RNAライブラリから得られたデータにおいて、アンチセンス鎖上のORFを予測すると、既知のタンパク質との類似性がないか非常に低い、偽陽性のORFが生じることが分かった。さらに、アセンブルされた転写産物の最大23%が、最初の開始コドンの上流およびインフレームに停止コドンを持たず、代わりに上流コドンのシーケンスで構成されていることが分かった。さらに、これらの転写産物を完全な転写産物(上流の配列が5'UTR)と5'不完全な転写産物(転写産物が不完全に組み立てられ、上流の配列がORFの一部である)に正確に分類するために、上流の配列の最適な長さのカットオフを見つけた。Borfは、RNA-SeqデータにおけるORF予測の誤判定を最小限に抑え、ORFスタートサイト予測のアノテーション精度を向上させるために設計された、優れたORF検索ツールである。BorfはPython3で書かれており、https://github.com/betsig/borf から自由に利用できる。

 

wiki

https://github.com/betsig/borf/wiki

 

インストール

mambaで仮想環境を作って導入した(mamba create -n borf -y python=3.9 && conda  activate borf)。

Github

pip install borf

> borf -h

usage: borf [-h] [-o OUTPUT_PATH] [-s] [-a] [-l ORF_LENGTH] [-u UPSTREAM_INCOMPLETE_LENGTH] [-b BATCH_SIZE] [-f] fasta_file

 

Get orf predicitions from a nucleotide fasta file

 

positional arguments:

fasta_file fasta file to predict ORFs

 

optional arguments:

-h, --help show this help message and exit

-o OUTPUT_PATH, --output_path OUTPUT_PATH

path to write output files. [OUTPUT_PATH].pep and [OUTPUT_PATH].txt (default: input .fa file name)

-s, --strand Predict orfs for both strands

-a, --all_orfs Return all ORFs for each sequence longer than the cutoff

-l ORF_LENGTH, --orf_length ORF_LENGTH

Minimum ORF length (AA). (default: 100)

-u UPSTREAM_INCOMPLETE_LENGTH, --upstream_incomplete_length UPSTREAM_INCOMPLETE_LENGTH

Minimum length (AA) of uninterupted sequence upstream of ORF to be included for incomplete_5prime transcripts (default: 50)

-b BATCH_SIZE, --batch_size BATCH_SIZE

Number of fasta records to read in in each batch

-f, --force_overwrite

Force overwriting of output files?

 

 

 

実行方法

de-novo transcriptome assemblyのfastaファイルを指定する。

borf input.fa -o outprefix -l 100 -u 50
  • -l    Minimum ORF length (AA). (default: 100)
  • -u   Minimum length (AA) of uninterupted sequence upstream of ORF to be included for incomplete_5prime transcripts (default: 50)

ジョブが計算が終わると、outprefix.pepとoutprefix.txtの2つのファイルが出力される。.pepファイルは予測されたORFの配列を、.txtファイルは予測されたORFの詳細を含む。

 

  • 最小ORF長より長い予測されたORFをすべて返すには、-aフラグを使う。
  • 両方の鎖に存在するORFを予測するには、-sフラグを使用する(-aフラグが指定されていない場合は、各転写産物について最長のORFが1つだけ報告される)。
  • 上流の不完全長のデフォルトは50で、これは-u を使って変更できるが、この値を50AAより低く設定することは勧められない。大部分の転写産物は、タンパク質配列をコードしていない40AAまでの長さのユニットアップされた上流のAAを持っているため。
  • ランタイムは非常に短い。10000個の転写産物を使ったテストランでは、10秒程度でジョブは完了した。

 

出力

f:id:kazumaxneo:20210418221641p:plain

.txt

f:id:kazumaxneo:20210418221803p:plain

Denovoで組み立てられた転写産物の場合、転写産物のアノテーションが不完全で3'または5'末端の一部が欠けている可能性があるため、右端の列にORFクラス(complete, incomplete_5prime, incomplete_3prime, incomplete)が提供されている。詳細はwikiを参照して下さい。

 

引用

Borf: Improved ORF prediction in de-novo assembled transcriptome annotation
Beth Signal, Tim Kahlke

bioRxiv, Posted April 14, 2021

 

関連