2021 1/28 カテゴリ追加、タイトル修正
ロングリードRNAシーケンシング(RNA-seq)技術により、転写産物全長の配列決定が可能となり、従来のショートリードRNA-seqよりもアイソフォーム特異的な遺伝子発現の探索が容易になった。しかし、ロングリードRNA-seqは塩基あたりのエラー率が高いこと、キメラリードやオルタナティブアラインメントの存在、その他のバイアスなどの問題があり、ショートリードRNA-seqとは異なる解析方法が必要とされていた。ここでは、ロングリードRNA-seqデータを用いてアイソフォームの発現を定量化し、Differentialなオルタナティブスプライシング(DAS)イベントを検出するための、期待値最大化に基づいた統計的手法であるLIQA(Long-read Isoform Quantification and Analysis)を紹介する。ショートリード法のようにアイソフォーム固有のリード数を直接集計するのではなく、LIQAではベースペア品質スコアとアイソフォーム固有のリード長情報を組み込んで、リード間で異なる重みを割り当てることで、アライメントの信頼性を反映させている。さらに、LIQAはアイソフォームの使用量を推定することで、条件間のDASイベントを検出することができる。シミュレーションデータを用いてLIQAの性能を評価したところ、希少なアイソフォームの特徴付けと2つのグループ間でのDASイベントの検出において、他のアプローチよりも優れていることが示された。また、Oxford Nanoporeロングリードプラットフォームを用いて、1つの直接mRNAシークエンシングデータセットと1つのcDNAシークエンシングデータセットを作成し、選択された遺伝子のペアショートリードRNA-seqデータとqPCRデータを用いて、LIQAがアイソフォームの発見と定量に優れた性能を発揮することを示した。最後に、PacBioの食道扁平上皮細胞のデータセットを用いてLIQAを評価したところ、ショートリードデータでは検出できなかったFGFR3のDASイベントが検出された。以上のことから、LIQAはロングリードRNA-seqのパワーを活用し、既存のアプローチよりも高い精度でアイソフォームのアバンダンスを推定することが可能であり、特にカバレッジが低く、リードの分布に偏りがあるアイソフォームについては、より高い精度が得られると考えられる。
usage
LIQA/Usage.md at master · WGLab/LIQA · GitHub
インストール
ubuntu18.04のdockerイメージを使ってテストした(python 3.7)。
liqa has been tested on python 3.5, 3.6, 3.7 and R 3.5.2.
依存
- Pysam
- Numpy
- Scipy
- Lifelines
R:
- gcmr
- betareg
#pypi (link)
pip install liqa
> liqa -h
$ liqa -h
Please specify task (liqa -task <task>):
refgene: preprocess reference file
quantify: quantify isoform expression
diff: detect differential splicing gene/isoform
(サブコマンドはtask をつけて指定する)
実行方法
ランにはロングリードをminimap2などでリファレンスにアラインして得たbamファイルと、GTFファイルが必要。UCSCからダウンロードする場合、"all fields from selected table"設定でダウンロードすることが推奨されている。
1、アノテーションのindex作成
#GTF
liqa -task refgene -ref example.gtf -format gtf -out refgene_output
#UCSC all fields
liqa -task refgene -ref ucsc.gtf -format ucsc -out refgene_output
refgene_outputが出力される。
2、リードカウント。1の出力とbamファイルを指定する。
liqa -task quantify -refgene refgene_output -bam input.bam -out output -max_distance 20 -f_weight 1
- <max distance>: The maximum length of an alignment error at exon boundary. Recommend: 20.
- <weight of F function>: The weight for bias correction in isoform usage estimation. Recommend: 1
$ head output |column -t
GeneName IsoformName ReadPerGene_corrected RelativeAbundance
BTR1 AT5G04430.2 2.99989504372602 0.99996501457534
BTR1 AT5G04430.1 0.0001049562739797705 3.49854246599235e-05
LBD15 AT2G40470.1 1.0 1.0
LBD15 AT2G40470.2 0.0 0.0
AT1G63660 AT1G63660.1 0.0037225022746454244 0.0012408340915484749
AT1G63660 AT1G63660.2 2.9962774977253543 0.9987591659084515
AT1G18950 AT1G18950.2 0.029758930527895494 0.029758930527895494
AT1G18950 AT1G18950.3 0.9702410694721045 0.9702410694721045
AT1G18950 AT1G18950.1 0.0 0.0
3、コンディション間でスプライシングバリエーションが変化した転写産物の検出。
liqa -task diff
-condition_1 <list_of_isoform_expression_estimation_file_for_condition1>
-condition_2 <list_of_isoform_expression_estimation_file_for_condition2>
-out <test_results_file>
listファイルはGithubに例があるように、2のそれぞれのサンプルのランの出力のフルパスを1行ずつ記載したリストになる。liqa -task diffコマンドの際にはこのリストを指定する。
/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample1
/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample2
/home/huy4/tmp/liqa_das_tmp/isoform_estimates_condition1_sample3
引用
LIQA: Long-read Isoform Quantification and Analysis
Yu Hu, Li Fang, Xuelian Chen, Jiang F. Zhong, Mingyao Li, Kai Wang
bioRxiv Posted September 10, 2020