long RNA sequencingリードの正確なアラインメントを行う uLTRA

　ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし、ロングリード技術のエラー率やシークエンシング長は、これらのリードを正確にアラインメントするための新たな課題を生み出している。本研究では、シミュレーションデータおよび合成データを用いて、小さなexonに対して、最先端技術よりも高い精度を示したアラインメント手法uLTRAを紹介する。生物学的データを用いて、他のアライナーでは検出できないエクソン構造を持つ既知および新規のアイソフォームにuLTRAをアラインメントした例をいくつか示す。

インストール

依存

parasail
pysam (>= v0.11)
dill
gffutils
slaMEM

本体　Github

#依存 slaMEM
git clone https://github.com/fjdf/slaMEM.git
cd slaMEM
make -j
export PATH=$PATH:$PWD

conda create -n ultra python=3 pip 
conda activate ultra
pip install ultra-bioinformatics

#mummer
conda install --yes -c bioconda mummer

> uLTRA --help

$ uLTRA --help

usage: uLTRA [-h] [--version] {pipeline,prep_splicing,prep_seqs,align} ...

uLTRA -- Align and classify long transcriptomic reads based on colinear chaining algorithms to gene regions

positional arguments:

{pipeline,prep_splicing,prep_seqs,align}

Subcommands for eaither constructing a graph, or align reads

pipeline Perform all in one: prepare splicing database and reference sequences and align reads.

prep_splicing Prepare all splicing structures from annotation

prep_seqs Prepare reference sequences to align to.

align Classify and align reads with colinear chaining to DAGs

optional arguments:

-h, --help show this help message and exit

--version show program's version number and exit

テストラン

#容量が大きいのでclone時は注意
git clone https://github.com/ksahlin/ultra.git
cd ultra/test/

#データベースの準備とアラインの一括実行
uLTRA pipeline SIRV_genes_C_170612a.gtf SIRV_genes.fasta reads.fa outfolder/

引用

Accurate spliced alignment of long RNA sequencing reads

Kristoffer Sahlin, Veli Mäkinen

bioRxiv, Posted September 03, 2020