macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

RNA seqのライブラリタイプを推測する GUESSmyLT

 

 ショートリードRNAシーケンシング(RNA-seq)は、特に遺伝子発現の調査、ゲノムアノテーションの実行、SNVの検出、またはオルタナティブスプライシングされた転写物の確認を可能にする強力なアプローチである。シーケンスリードには、使用するRNA-seqライブラリ調製プロトコルによって異なる特性がある。 i)リードは、シングルエンド(フラグメントの片側のみがシーケンスされる)またはペアエンド(フラグメントの両末端がシーケンスされる)のいずれかである。 ii)リードはstranded(どのstrandが最初に転写されたかに関する情報が保存される)かunstrandedである。 iii)フラグメントの右端が最初にシーケンシングされるか(シングルエンドでは右端のみ)、フラグメントの左端が最初にシーケンシングされる(シングルエンドでは左端のみ); iv)ペアエンドのリードは、内向きまたは外向きである。 v)ペアエンドリードは、両方とも元のRNA strand/テンプレートまたは反対側のstrandから、または一方が元のRNA strand/テンプレートから、もう一方が反対側のstrandから来る場合がある(論文図1)。ライブラリタイプに関する情報は、リファレンスアセンブリ/ゲノムへのリードマッピングを改善したり、それらをトランスクリプトームにアセンブルするのに役立つ。これは、ライブラリのタイプが、リードの相対的な方向と、それがどのストランドからシーケンスされたかを使用して、あいまいなリードの場所を識別するのに役立つためである。残念ながら、使用されるライブラリタイプに関するこの情報は、出力ファイルのシーケンスには含まれていないため、エンドユーザーが使用する前に失われたり、誤ってラベル付けされたりする可能性がある。ほとんどの場合、RNA-seqデータの生成に関与する関係者に連絡することで解決できる。しかし、それが不可能な場合、これはリソースと時間の浪費になる可能性がある。次善のパラメーターを使用して分析を開始すると結果の品質が低下するが、現在利用可能なアプローチでライブラリーのタイプは推測できる。i)RSeQCパッケージ(RSeQC: quality control of RNA-seq experiments)のinfer_experiment.pyを使用する、ii)異なるパラメータでマッパーを起動し、結果を比較する。 iii)リードをマッピングし、ゲノムブラウザに読み込む。 iv)Salmonの使用(Salmonは、転写産物発現の高速でbias-awareな定量を提供)。ただし、ライブラリタイプの完全な情報を推測することはできない。特定の入力(アノテーションファイルなど)を要求し、特定のライブラリタイプのみを処理できかなりの手作業になり得る。    

 GUESSmyLTは、RNA-Seqライブラリータイプをできるだけ包括的に識別するために必要なさまざまなステップを自動化することを目的としており、マッピングされたリード、 rawリードから、アノテーション情報やリファレンスゲノムの有無にかかわらず、あらゆるタイプの入力データを処理できる GUESSmyLTは、3つの既存のソフトウェア(bowtie2(Langmead B、2012)、trinity(Grabherr MG、2011)、busco(Robert M. Waterhouse & Zdobnov、2017)からsnakemakeパイプラインととして開発され、最後の推論ステップでライブラリタイプ予測を行う。 

f:id:kazumaxneo:20191216182513p:plain

Overview of the different library types.  論文より転載

 

インストール

ubuntu18.04LTSでpipを使ってテストした。

依存

Python and libraries:

  • Python >3
  • biopython (1.67)
  • bcbio-gff (0.6.4) - handling gff annotation
  • pysam (0.15.1) - handling mapped reads

Other programs:

  • Snakemake (5.4.0) - Workflow management
  • BUSCO (3.0.2) - Gene annotation
  • Bowtie2 (2.3.4.3) - Mapping
  • Trinity (2.8.4) - Reference assembly

本体 Github

#pip
pip install GUESSmyLT

#git
git clone https://github.com/NBISweden/GUESSmyLT.git
cd GUESSmyLT/
python setup.py install

#onda (link)
conda create -n guessmylt -c bioconda -y guessmylt python=3.7

> GUESSmyLT -h

$ GUESSmyLT -h

usage: GUESSmyLT [-h] [--organism ORGANISM] [--reads READS [READS ...]]

                 [--subsample SUBSAMPLE] [--reference REFERENCE] [--mode MODE]

                 [--annotation ANNOTATION] [--mapped MAPPED]

                 [--threads THREADS] [--memory MEMORY] [--output OUTPUT] [-n]

 

GUESSmyLT, GUESS my Library Type. Can predict the library type used for RNA-

Seq. The prediction is based on the orientaion of your read file(s) in

.fastq/.fastq.gz/.bam format. Knowing the library type helps you with

downstream analyses since it greatly improves the assembly.

 

optional arguments:

  -h, --help            show this help message and exit

  --organism ORGANISM   Mandatory when no annotation provided. What organism

                        are you dealing with? prokaryote or eukaryote.

  --reads READS [READS ...]

                        One or two read files in .fastq or .fastq.gz format.

                        Files can be compressed or uncrompressed. Handles

                        interleaved read files and any known .fastq header

                        format.

  --subsample SUBSAMPLE

                        Number of subsampled reads that will be used for

                        analysis. Must be an even number.

  --reference REFERENCE

                        Mandatory when --mapped used or when no reads provided

                        (--reads). Reference file in .fa/.fasta format.

                        Reference can be either transcriptome or genome.

  --mode MODE           Mode can be genome or transcriptome (default genome).

                        It defines how the reference fasta file will be

                        handled by BUSCO. This option is used when no

                        annotation is provided (--annotation).

  --annotation ANNOTATION

                        Annotation file in .gff format. Needs to contain

                        genes.

  --mapped MAPPED       Mapped file in .bam format (Will be sorted). Reference

                        that reads have been mapped to has to be provided.

  --threads THREADS     The number of threads that can be used by GUESSmyLT.

                        Needs to be an integer. Defualt value is 2.

  --memory MEMORY       Maximum memory that can be used by GUESSmyLT in GB.

                        E.g. '10G'. Default value is 8G.

  --output OUTPUT       Full path to output directory. Default is working

                        directory.

  -n                    (Snakemake dryrun option) Allows to see the scheduling

                        plan including the assigned priorities.

 

 

実行方法

fastqを指定する。リファレンスゲノムFASTAアノテーション情報もあるなら指定する。

GUESSmyLT --reads read_1.fastq read_2.fastq --reference ref.fa --mode genome --organism euk --annotation annotation.gff

bowite2のバージョンエラーになる。修正できたら追記します。

 

 

引用

GUESSmyLT: Software to guess the RNA-Seq library type of paired and single end read files Software

Erik Berner Wik, Hampus Olin, Caitlin Vigetun Haughey, Lisa Klasson, Jacques Dainat