RNA seqのライブラリタイプを推測する GUESSmyLT

　ショートリードRNAシーケンシング（RNA-seq）は、特に遺伝子発現の調査、ゲノムアノテーションの実行、SNVの検出、またはオルタナティブスプライシングされた転写物の確認を可能にする強力なアプローチである。シーケンスリードには、使用するRNA-seqライブラリ調製プロトコルによって異なる特性がある。 i）リードは、シングルエンド（フラグメントの片側のみがシーケンスされる）またはペアエンド（フラグメントの両末端がシーケンスされる）のいずれかである。 ii）リードはstranded（どのstrandが最初に転写されたかに関する情報が保存される）かunstrandedである。 iii）フラグメントの右端が最初にシーケンシングされるか（シングルエンドでは右端のみ）、フラグメントの左端が最初にシーケンシングされる（シングルエンドでは左端のみ）; iv）ペアエンドのリードは、内向きまたは外向きである。 v）ペアエンドリードは、両方とも元のRNA strand/テンプレートまたは反対側のstrandから、または一方が元のRNA strand/テンプレートから、もう一方が反対側のstrandから来る場合がある（論文図1）。ライブラリタイプに関する情報は、リファレンスアセンブリ/ゲノムへのリードマッピングを改善したり、それらをトランスクリプトームにアセンブルするのに役立つ。これは、ライブラリのタイプが、リードの相対的な方向と、それがどのストランドからシーケンスされたかを使用して、あいまいなリードの場所を識別するのに役立つためである。残念ながら、使用されるライブラリタイプに関するこの情報は、出力ファイルのシーケンスには含まれていないため、エンドユーザーが使用する前に失われたり、誤ってラベル付けされたりする可能性がある。ほとんどの場合、RNA-seqデータの生成に関与する関係者に連絡することで解決できる。しかし、それが不可能な場合、これはリソースと時間の浪費になる可能性がある。次善のパラメーターを使用して分析を開始すると結果の品質が低下するが、現在利用可能なアプローチでライブラリーのタイプは推測できる。i）RSeQCパッケージ（RSeQC: quality control of RNA-seq experiments）のinfer_experiment.pyを使用する、ii）異なるパラメータでマッパーを起動し、結果を比較する。 iii）リードをマッピングし、ゲノムブラウザに読み込む。 iv）Salmonの使用（Salmonは、転写産物発現の高速でbias-awareな定量を提供）。ただし、ライブラリタイプの完全な情報を推測することはできない。特定の入力（アノテーションファイルなど）を要求し、特定のライブラリタイプのみを処理できかなりの手作業になり得る。

　GUESSmyLTは、RNA-Seqライブラリータイプをできるだけ包括的に識別するために必要なさまざまなステップを自動化することを目的としており、マッピングされたリード、 rawリードから、アノテーション情報やリファレンスゲノムの有無にかかわらず、あらゆるタイプの入力データを処理できる GUESSmyLTは、3つの既存のソフトウェア（bowtie2（Langmead B、2012）、trinity（Grabherr MG、2011）、busco（Robert M. Waterhouse & Zdobnov、2017）からsnakemakeパイプラインととして開発され、最後の推論ステップでライブラリタイプ予測を行う。

Overview of the different library types. 論文より転載

インストール

ubuntu18.04LTSでpipを使ってテストした。

依存

Python and libraries:

Python >3
biopython (1.67)
bcbio-gff (0.6.4) - handling gff annotation
pysam (0.15.1) - handling mapped reads

Other programs:

Snakemake (5.4.0) - Workflow management
BUSCO (3.0.2) - Gene annotation
Bowtie2 (2.3.4.3) - Mapping
Trinity (2.8.4) - Reference assembly

本体　Github

#pip
pip install GUESSmyLT

#git
git clone https://github.com/NBISweden/GUESSmyLT.git
cd GUESSmyLT/
python setup.py install

#onda (link)
conda create -n guessmylt -c bioconda -y guessmylt python=3.7

> GUESSmyLT -h

$ GUESSmyLT -h

usage: GUESSmyLT [-h] [--organism ORGANISM] [--reads READS [READS ...]]

[--subsample SUBSAMPLE] [--reference REFERENCE] [--mode MODE]

[--annotation ANNOTATION] [--mapped MAPPED]

[--threads THREADS] [--memory MEMORY] [--output OUTPUT] [-n]

GUESSmyLT, GUESS my Library Type. Can predict the library type used for RNA-

Seq. The prediction is based on the orientaion of your read file(s) in

.fastq/.fastq.gz/.bam format. Knowing the library type helps you with

downstream analyses since it greatly improves the assembly.

optional arguments:

-h, --help show this help message and exit

--organism ORGANISM Mandatory when no annotation provided. What organism

are you dealing with? prokaryote or eukaryote.

--reads READS [READS ...]

One or two read files in .fastq or .fastq.gz format.

Files can be compressed or uncrompressed. Handles

interleaved read files and any known .fastq header

format.

--subsample SUBSAMPLE

Number of subsampled reads that will be used for

analysis. Must be an even number.

--reference REFERENCE

Mandatory when --mapped used or when no reads provided

(--reads). Reference file in .fa/.fasta format.

Reference can be either transcriptome or genome.

--mode MODE Mode can be genome or transcriptome (default genome).

It defines how the reference fasta file will be

handled by BUSCO. This option is used when no

annotation is provided (--annotation).

--annotation ANNOTATION

Annotation file in .gff format. Needs to contain

genes.

--mapped MAPPED Mapped file in .bam format (Will be sorted). Reference

that reads have been mapped to has to be provided.

--threads THREADS The number of threads that can be used by GUESSmyLT.

Needs to be an integer. Defualt value is 2.

--memory MEMORY Maximum memory that can be used by GUESSmyLT in GB.

E.g. '10G'. Default value is 8G.

--output OUTPUT Full path to output directory. Default is working

directory.

-n (Snakemake dryrun option) Allows to see the scheduling

plan including the assigned priorities.

実行方法

fastqを指定する。リファレンスゲノムFASTAやアノテーション情報もあるなら指定する。

GUESSmyLT --reads read_1.fastq read_2.fastq --reference ref.fa --mode genome --organism euk --annotation annotation.gff

bowite2のバージョンエラーになる。修正できたら追記します。

引用

GUESSmyLT: Software to guess the RNA-Seq library type of paired and single end read files Software

Erik Berner Wik, Hampus Olin, Caitlin Vigetun Haughey, Lisa Klasson, Jacques Dainat

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

RNA seqのライブラリタイプを推測する GUESSmyLT