ロングリードおよびショートリードの RNA-seqから遺伝子アイソフォームを定量する miniQuant

　RNAシーケンスは遺伝子アイソフォームの定量に広く応用されているが、複雑な遺伝子のアイソフォームを正確に定量するには、特にショートリードでは限界がある。ここでは、ショートリードでは正確な定量が困難な遺伝子を同定し、これらの領域の定量にロングリードを使用することの情報的利点を説明する。また、リードアラインメントの曖昧さによって定量誤差が生じる遺伝子をランク付けし、ロングリードとショートリードの相補的な強みを、遺伝子やデータに応じた最適な組み合わせで統合することで、より正確な定量を実現するminiQuantを紹介する。これらの結果は、厳密な数学的証明によって裏付けられており、幅広いシミュレーションデータ、実験的検証、およびGTEx、TCGA、ENCODEコンソーシアムからの17,000を超える公開データセットを用いて検証されている。本著者らは、miniQuantがヒト胚性幹細胞から咽頭内胚葉および始原生殖細胞様細胞への分化過程におけるアイソフォームスイッチを明らかにできることを実証している。

インストール

Github

docker run -i -t tidesun/miniquant:latest ./miniQuant

#singularity 
singularity run docker://tidesun/miniquant:latest ./miniQuant

> docker run -i -t tidesun/miniquant:latest ./miniQuant

Program: miniQuant (Optimal and fast gene isoform abundance estimation)

Version: 1.1

Usage: miniQuant <subcommand> [arguments] ..

Available subcommands:

quant Quantify gene isoform abundance by long reads and/or short reads

kvalue Calculate K-value to identify a problematic set of gene isoforms with erroneous quantification

> miniQuant quant -h

Quantify gene isoform abundance by long reads and/or short reads

Usage:

miniQuant quant -r <ref.fa> -l <lr.fq.gz> -o <./output> [-1 <sr_r1.fq.gz> -2 <sr_r2.fq.gz>]

[--long_reads_library_prep CHOICE] [--short_reads_strandness CHOICE] [-t THREADS] [OPTION...] positional parameters

Required options:

-r, --reference arg Reference transcripts sequence file in

FASTA format

-l, --long_reads arg Input long reads file in plain or gzipped

FASTA/FASTQ format. Leave blank if using

only short reads. (default: "")

-1, --short_reads_pair_1 arg Input short reads pair 1 in plain or

gzipped FASTA/FASTQ format. Leave blank if

using only long reads. (default: "")

-2, --short_reads_pair_2 arg Input short reads pair 2 in plain or

gzipped FASTA/FASTQ format. Leave blank if

using only long reads. (default: "")

-o, --output arg Output folder

Optional options:

--long_reads_library_prep arg

The library preparation for long reads.

Choices:[cDNA-ONT,dRNA-ONT,cDNA-PacBio]

(default: cDNA-ONT)

--short_reads_strandness arg

The strandness of short reads.

Choices:[unstranded,fr-stranded,rf-stranded]

*fr-strandred: Strand specific reads, first

read forward

*rf-stranded: Strand specific reads, first

read reverse

(default: unstranded)

--short_reads_mean_fragment_length arg

Mean value of short reads fragment lengths

(default: 235.0)

--short_reads_sd_fragment_length arg

Standard deviation of short reads fragment

lengths (default: 23.0)

-t, --threads arg Num of threads (default: 1)

--mem arg Max RAM usage in GB allowed when aligning

the reads (default: 5.0)

-h, --help Print usage

> miniQuant kvalue -h

Calculate K-value to identify a problematic set of gene isoforms with erroneous quantification

Usage:

miniQuant kvalue [OPTION...]

Required options:

-a, --annotation arg Gene isoform annotation file in GTF, GFF or

genePred format

-o, --output arg Output folder

Optional options:

-t, --threads arg Num of threads (default: 1)

--short_reads_mean_fragment_length arg

Mean value of short reads fragment lengths

(default: 235.0)

-h, --help Print usage

テストラン

1､ロングリードのみを使った定量｡

ロングリードのfastq(gzip圧縮も認識)とリファレンスのfastaファイル(ゲノムでなく転写産物のfasta)を指定する｡

git clone https://github.com/Augroup/miniQuant.git
cd miniQuant/
#docker run
docker run -itv $PWD:/data -w /data --rm  tidesun/miniquant:latest bash

/app/miniQuant quant -r example/reference.fa -l example/LR.fasta.gz -t 8 -o miniQuant_LR_alone_res

-r Reference transcripts sequence file in FASTA format
-l Input long reads file in plain or gzipped FASTA/FASTQ format. Leave blank if using only short reads. (default: "")
-t Num of threads (default: 1)
-o Output folder

miniQuant_LR_alone_res/abundance.tsvが保存される｡

出力

転写産物ID､TPMとexpected count(期待値)が記録されている｡

2､ロングリードとショートリード両方を使った定量 (ハイブリッドモード)｡

/app/miniQuant quant -r example/reference.fa -l example/LR.fasta.gz \
 -1 example/SR_R1.fasta.gz -2 example/SR_R2.fasta.gz \
 -t 8 -o miniQuant_hybrid_res

-1 Input short reads pair 1 in plain or gzipped FASTA/FASTQ format. Leave blank if using only long reads. (default: "")
-2 Input short reads pair 2 in plain or gzipped FASTA/FASTQ format. Leave blank if using only long reads. (default: "")

出力

miniQuant_hybrid_res/abundance.tsv

転写産物ID､TPM､ロングリードとショートリードそれぞれのexpected countが記録されている｡

定量が難しい遺伝子を識別するための指標であるK値を計算する｡

/app/miniQuant kvalue -a example/annotation.gtf -o outdir

出力

K-value が大きいほど定量誤差のリスクが高いことを意味する｡ショートアイソフォームのみで構成される遺伝子（すなわち、すべてのアイソフォームの長さが--short_reads_mean_fragment_length未満の場合）は、K値は計算されずNA値が付与される｡

その他

高速なRNA-seqの定量：標準的なノートパソコンで、アラインメント未処理の4,000万ペアエンドショートリード＋500万ロングリードを15分未満で分析可能。
新規K値メトリック計算：特に発現量推定誤差が大きくなる配列共有パターンの特徴を定量化する指標を開発。これにより、定量誤差が生じやすい遺伝子アイソフォーム群を特定可能となり、研究において特に注意が必要な対象を明確にできる。
ハイブリッドモードでは､ショートとロングの両者の弱点を補う効果がある。例えばロングリードのみでは低発現アイソフォームの定量が難しくても､深く読んだショートリードではより揺らぎが少なく定量できる可能性が高い｡一方､ショートリードでは全体にわたって配列が近いアイソフォーム間を区別した定量が難しくても､転写産物全長に近いロングリードではアイソフォームを区別して定量する能力が高い｡

引用

Improving gene isoform quantification with miniQuant

Haoran Li, Dingjie Wang, Qi Gao, Puwen Tan, Yunhao Wang, Xiaoyu Cai, Aifu Li, Yue Zhao, Andrew L. Thurman, Seyed Amir Malekpour, Ying Zhang, Roberta Sala, Andrea Cipriano, Chia-Lin Wei, Vittorio Sebastiano, Chi Song, Nancy R. Zhang & Kin Fai Au

Nature Biotechnology (2025), Published: 03 June 2025