macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

long RNA sequencingリードの正確なアラインメントを行う uLTRA

 

 ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし、ロングリード技術のエラー率やシークエンシング長は、これらのリードを正確にアラインメントするための新たな課題を生み出している。本研究では、シミュレーションデータおよび合成データを用いて、小さなexonに対して、最先端技術よりも高い精度を示したアラインメント手法uLTRAを紹介する。生物学的データを用いて、他のアライナーでは検出できないエクソン構造を持つ既知および新規のアイソフォームにuLTRAをアラインメントした例をいくつか示す。

 

インストール

依存

  • parasail
  • pysam (>= v0.11)
  • dill
  • gffutils
  • slaMEM

本体 Github

#依存 slaMEM
git clone https://github.com/fjdf/slaMEM.git
cd slaMEM
make -j
export PATH=$PATH:$PWD

conda create -n ultra python=3 pip
conda activate ultra
pip install ultra-bioinformatics

#mummer
conda install --yes -c bioconda mummer

uLTRA --help

$ uLTRA --help

usage: uLTRA [-h] [--version] {pipeline,prep_splicing,prep_seqs,align} ...

 

uLTRA -- Align and classify long transcriptomic reads based on colinear chaining algorithms to gene regions

 

positional arguments:

  {pipeline,prep_splicing,prep_seqs,align}

                        Subcommands for eaither constructing a graph, or align reads

    pipeline            Perform all in one: prepare splicing database and reference sequences and align reads.

    prep_splicing       Prepare all splicing structures from annotation

    prep_seqs           Prepare reference sequences to align to.

    align               Classify and align reads with colinear chaining to DAGs

 

optional arguments:

  -h, --help            show this help message and exit

  --version             show program's version number and exit

 

 

テストラン

#容量が大きいのでclone時は注意
git clone https://github.com/ksahlin/ultra.git
cd ultra/test/

#データベースの準備とアラインの一括実行
uLTRA pipeline SIRV_genes_C_170612a.gtf SIRV_genes.fasta reads.fa outfolder/

 

引用

Accurate spliced alignment of long RNA sequencing reads

Kristoffer Sahlin, Veli Mäkinen

bioRxiv, Posted September 03, 2020