ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし、ロングリード技術のエラー率やシークエンシング長は、これらのリードを正確にアラインメントするための新たな課題を生み出している。本研究では、シミュレーションデータおよび合成データを用いて、小さなexonに対して、最先端技術よりも高い精度を示したアラインメント手法uLTRAを紹介する。生物学的データを用いて、他のアライナーでは検出できないエクソン構造を持つ既知および新規のアイソフォームにuLTRAをアラインメントした例をいくつか示す。
インストール
依存
- parasail
- pysam (>= v0.11)
- dill
- gffutils
- slaMEM
本体 Github
#依存 slaMEM
git clone https://github.com/fjdf/slaMEM.git
cd slaMEM
make -j
export PATH=$PATH:$PWD
conda create -n ultra python=3 pip
conda activate ultra
pip install ultra-bioinformatics
#mummer
conda install --yes -c bioconda mummer
> uLTRA --help
$ uLTRA --help
usage: uLTRA [-h] [--version] {pipeline,prep_splicing,prep_seqs,align} ...
uLTRA -- Align and classify long transcriptomic reads based on colinear chaining algorithms to gene regions
positional arguments:
{pipeline,prep_splicing,prep_seqs,align}
Subcommands for eaither constructing a graph, or align reads
pipeline Perform all in one: prepare splicing database and reference sequences and align reads.
prep_splicing Prepare all splicing structures from annotation
prep_seqs Prepare reference sequences to align to.
align Classify and align reads with colinear chaining to DAGs
optional arguments:
-h, --help show this help message and exit
--version show program's version number and exit
テストラン
#容量が大きいのでclone時は注意
git clone https://github.com/ksahlin/ultra.git
cd ultra/test/
#データベースの準備とアラインの一括実行
uLTRA pipeline SIRV_genes_C_170612a.gtf SIRV_genes.fasta reads.fa outfolder/
引用
Accurate spliced alignment of long RNA sequencing reads
Kristoffer Sahlin, Veli Mäkinen
bioRxiv, Posted September 03, 2020