ロングリードRNA seqの転写産物レベルのリードカウントとスプライシングアイソフォーム検出を行う LIQA

2021 1/28 カテゴリ追加、タイトル修正

　ロングリードRNAシーケンシング（RNA-seq）技術により、転写産物全長の配列決定が可能となり、従来のショートリードRNA-seqよりもアイソフォーム特異的な遺伝子発現の探索が容易になった。しかし、ロングリードRNA-seqは塩基あたりのエラー率が高いこと、キメラリードやオルタナティブアラインメントの存在、その他のバイアスなどの問題があり、ショートリードRNA-seqとは異なる解析方法が必要とされていた。ここでは、ロングリードRNA-seqデータを用いてアイソフォームの発現を定量化し、Differentialなオルタナティブスプライシング（DAS）イベントを検出するための、期待値最大化に基づいた統計的手法であるLIQA（Long-read Isoform Quantification and Analysis）を紹介する。ショートリード法のようにアイソフォーム固有のリード数を直接集計するのではなく、LIQAではベースペア品質スコアとアイソフォーム固有のリード長情報を組み込んで、リード間で異なる重みを割り当てることで、アライメントの信頼性を反映させている。さらに、LIQAはアイソフォームの使用量を推定することで、条件間のDASイベントを検出することができる。シミュレーションデータを用いてLIQAの性能を評価したところ、希少なアイソフォームの特徴付けと2つのグループ間でのDASイベントの検出において、他のアプローチよりも優れていることが示された。また、Oxford Nanoporeロングリードプラットフォームを用いて、1つの直接mRNAシークエンシングデータセットと1つのcDNAシークエンシングデータセットを作成し、選択された遺伝子のペアショートリードRNA-seqデータとqPCRデータを用いて、LIQAがアイソフォームの発見と定量に優れた性能を発揮することを示した。最後に、PacBioの食道扁平上皮細胞のデータセットを用いてLIQAを評価したところ、ショートリードデータでは検出できなかったFGFR3のDASイベントが検出された。以上のことから、LIQAはロングリードRNA-seqのパワーを活用し、既存のアプローチよりも高い精度でアイソフォームのアバンダンスを推定することが可能であり、特にカバレッジが低く、リードの分布に偏りがあるアイソフォームについては、より高い精度が得られると考えられる。

usage

LIQA/Usage.md at master · WGLab/LIQA · GitHub

インストール

ubuntu18.04のdockerイメージを使ってテストした（python 3.7）。

liqa has been tested on python 3.5, 3.6, 3.7 and R 3.5.2.

依存

Python:

Pysam
Numpy
Scipy
Lifelines

gcmr
betareg

Github

#pypi (link)
pip install liqa

> liqa -h

$ liqa -h

Please specify task (liqa -task <task>):

refgene: preprocess reference file

quantify: quantify isoform expression

diff: detect differential splicing gene/isoform

（サブコマンドはtask をつけて指定する）

実行方法

ランにはロングリードをminimap2などでリファレンスにアラインして得たbamファイルと、GTFファイルが必要。UCSCからダウンロードする場合、"all fields from selected table"設定でダウンロードすることが推奨されている。

１、アノテーションのindex作成

#GTF
liqa -task refgene -ref example.gtf -format gtf -out refgene_output

#UCSC all fields
liqa -task refgene -ref ucsc.gtf -format ucsc -out refgene_output

refgene_outputが出力される。

２、リードカウント。１の出力とbamファイルを指定する。

liqa -task quantify -refgene refgene_output -bam input.bam -out output -max_distance 20 -f_weight 1

<max distance>: The maximum length of an alignment error at exon boundary. Recommend: 20.
<weight of F function>: The weight for bias correction in isoform usage estimation. Recommend: 1

$ head output |column -t

GeneName IsoformName ReadPerGene_corrected RelativeAbundance

BTR1 AT5G04430.2 2.99989504372602 0.99996501457534

BTR1 AT5G04430.1 0.0001049562739797705 3.49854246599235e-05

LBD15 AT2G40470.1 1.0 1.0

LBD15 AT2G40470.2 0.0 0.0

AT1G63660 AT1G63660.1 0.0037225022746454244 0.0012408340915484749

AT1G63660 AT1G63660.2 2.9962774977253543 0.9987591659084515

AT1G18950 AT1G18950.2 0.029758930527895494 0.029758930527895494

AT1G18950 AT1G18950.3 0.9702410694721045 0.9702410694721045

AT1G18950 AT1G18950.1 0.0 0.0

３、コンディション間でスプライシングバリエーションが変化した転写産物の検出。

liqa -task diff
 -condition_1 <list_of_isoform_expression_estimation_file_for_condition1>
 -condition_2 <list_of_isoform_expression_estimation_file_for_condition2>
 -out <test_results_file>

listファイルはGithubに例があるように、２のそれぞれのサンプルのランの出力のフルパスを１行ずつ記載したリストになる。liqa -task diffコマンドの際にはこのリストを指定する。

/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample1
/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample2
/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample3

引用

LIQA: Long-read Isoform Quantification and Analysis

Yu Hu, Li Fang, Xuelian Chen, Jiang F. Zhong, Mingyao Li, Kai Wang

bioRxiv Posted September 10, 2020