macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードRNA seqの転写産物レベルのリードカウントとスプライシングアイソフォーム検出を行う LIQA

2021 1/28 カテゴリ追加、タイトル修正

 

 ロングリードRNAシーケンシング(RNA-seq)技術により、転写産物全長の配列決定が可能となり、従来のショートリードRNA-seqよりもアイソフォーム特異的な遺伝子発現の探索が容易になった。しかし、ロングリードRNA-seqは塩基あたりのエラー率が高いこと、キメラリードやオルタナティブアラインメントの存在、その他のバイアスなどの問題があり、ショートリードRNA-seqとは異なる解析方法が必要とされていた。ここでは、ロングリードRNA-seqデータを用いてアイソフォームの発現を定量化し、Differentialなオルタナティブスプライシング(DAS)イベントを検出するための、期待値最大化に基づいた統計的手法であるLIQA(Long-read Isoform Quantification and Analysis)を紹介する。ショートリード法のようにアイソフォーム固有のリード数を直接集計するのではなく、LIQAではベースペア品質スコアとアイソフォーム固有のリード長情報を組み込んで、リード間で異なる重みを割り当てることで、アライメントの信頼性を反映させている。さらに、LIQAはアイソフォームの使用量を推定することで、条件間のDASイベントを検出することができる。シミュレーションデータを用いてLIQAの性能を評価したところ、希少なアイソフォームの特徴付けと2つのグループ間でのDASイベントの検出において、他のアプローチよりも優れていることが示された。また、Oxford Nanoporeロングリードプラットフォームを用いて、1つの直接mRNAシークエンシングデータセットと1つのcDNAシークエンシングデータセットを作成し、選択された遺伝子のペアショートリードRNA-seqデータとqPCRデータを用いて、LIQAがアイソフォームの発見と定量に優れた性能を発揮することを示した。最後に、PacBioの食道扁平上皮細胞のデータセットを用いてLIQAを評価したところ、ショートリードデータでは検出できなかったFGFR3のDASイベントが検出された。以上のことから、LIQAはロングリードRNA-seqのパワーを活用し、既存のアプローチよりも高い精度でアイソフォームのアバンダンスを推定することが可能であり、特にカバレッジが低く、リードの分布に偏りがあるアイソフォームについては、より高い精度が得られると考えられる。

 

usage

LIQA/Usage.md at master · WGLab/LIQA · GitHub

 

インストール

ubuntu18.04のdockerイメージを使ってテストした(python 3.7)。

liqa has been tested on python 3.5, 3.6, 3.7 and R 3.5.2.

依存

Python:

  • Pysam
  • Numpy
  • Scipy
  • Lifelines

R:

  • gcmr
  • betareg

Github

#pypi (link)
pip install liqa

> liqa -h

$ liqa -h

 

Please specify task (liqa -task <task>):

 

refgene:   preprocess reference file

 

quantify:   quantify isoform expression

 

diff:   detect differential splicing gene/isoform

 

(サブコマンドはtask をつけて指定する)

 

実行方法

ランにはロングリードをminimap2などでリファレンスにアラインして得たbamファイルと、GTFファイルが必要。UCSCからダウンロードする場合、"all fields from selected table"設定でダウンロードすることが推奨されている。

 

1、アノテーションのindex作成

#GTF
liqa -task refgene -ref example.gtf -format gtf -out refgene_output

#UCSC all fields
liqa -task refgene -ref ucsc.gtf -format ucsc -out refgene_output

refgene_outputが出力される。

 

2、リードカウント。1の出力とbamファイルを指定する。

liqa -task quantify -refgene refgene_output -bam input.bam -out output -max_distance 20 -f_weight 1
  •  <max distance>: The maximum length of an alignment error at exon boundary. Recommend: 20.
  • <weight of F function>: The weight for bias correction in isoform usage estimation. Recommend: 1

$ head output |column -t

GeneName   IsoformName  ReadPerGene_corrected  RelativeAbundance

BTR1       AT5G04430.2  2.99989504372602       0.99996501457534

BTR1       AT5G04430.1  0.0001049562739797705  3.49854246599235e-05

LBD15      AT2G40470.1  1.0                    1.0

LBD15      AT2G40470.2  0.0                    0.0

AT1G63660  AT1G63660.1  0.0037225022746454244  0.0012408340915484749

AT1G63660  AT1G63660.2  2.9962774977253543     0.9987591659084515

AT1G18950  AT1G18950.2  0.029758930527895494   0.029758930527895494

AT1G18950  AT1G18950.3  0.9702410694721045     0.9702410694721045

AT1G18950  AT1G18950.1  0.0                    0.0

 

 

3、コンディション間でスプライシングバリエーションが変化した転写産物の検出。

liqa -task diff
-condition_1 <list_of_isoform_expression_estimation_file_for_condition1>
-condition_2 <list_of_isoform_expression_estimation_file_for_condition2>
-out <test_results_file>

listファイルはGithubに例があるように、2のそれぞれのサンプルのランの出力のフルパスを1行ずつ記載したリストになる。liqa -task diffコマンドの際にはこのリストを指定する。

/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample1
/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample2
/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample3 

 

引用

LIQA: Long-read Isoform Quantification and Analysis

Yu Hu, Li Fang, Xuelian Chen, Jiang F. Zhong, Mingyao Li, Kai Wang

bioRxiv Posted September 10, 2020