macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードおよびショートリードの RNA-seqから遺伝子アイソフォームを定量する miniQuant

 

 RNAシーケンスは遺伝子アイソフォームの定量に広く応用されているが、複雑な遺伝子のアイソフォームを正確に定量するには、特にショートリードでは限界がある。ここでは、ショートリードでは正確な定量が困難な遺伝子を同定し、これらの領域の定量にロングリードを使用することの情報的利点を説明する。また、リードアラインメントの曖昧さによって定量誤差が生じる遺伝子をランク付けし、ロングリードとショートリードの相補的な強みを、遺伝子やデータに応じた最適な組み合わせで統合することで、より正確な定量を実現するminiQuantを紹介する。これらの結果は、厳密な数学的証明によって裏付けられており、幅広いシミュレーションデータ、実験的検証、およびGTEx、TCGA、ENCODEコンソーシアムからの17,000を超える公開データセットを用いて検証されている。本著者らは、miniQuantがヒト胚性幹細胞から咽頭内胚葉および始原生殖細胞様細胞への分化過程におけるアイソフォームスイッチを明らかにできることを実証している。

 

インストール

Github

docker run -i -t tidesun/miniquant:latest ./miniQuant

#singularity
singularity run docker://tidesun/miniquant:latest ./miniQuant

> docker run -i -t tidesun/miniquant:latest ./miniQuant

Program: miniQuant (Optimal and fast gene isoform abundance estimation)

Version: 1.1

 

Usage: miniQuant <subcommand> [arguments] ..

 

Available subcommands:

 

  quant       Quantify gene isoform abundance by long reads and/or short reads

  kvalue      Calculate K-value to identify a problematic set of gene isoforms with erroneous quantification

 

> miniQuant quant -h 

Quantify gene isoform abundance by long reads and/or short reads

 

Usage:

  miniQuant quant -r <ref.fa> -l <lr.fq.gz> -o <./output> [-1 <sr_r1.fq.gz> -2 <sr_r2.fq.gz>]

[--long_reads_library_prep CHOICE] [--short_reads_strandness CHOICE] [-t THREADS] [OPTION...] positional parameters

 

 Required options:

  -r, --reference arg           Reference transcripts sequence file in 

                                FASTA format

  -l, --long_reads arg          Input long reads file in plain or gzipped 

                                FASTA/FASTQ format. Leave blank if using 

                                only short reads. (default: "")

  -1, --short_reads_pair_1 arg  Input short reads pair 1 in plain or 

                                gzipped FASTA/FASTQ format. Leave blank if 

                                using only long reads. (default: "")

  -2, --short_reads_pair_2 arg  Input short reads pair 2 in plain or 

                                gzipped FASTA/FASTQ format. Leave blank if 

                                using only long reads. (default: "")

  -o, --output arg              Output folder

 

 Optional options:

      --long_reads_library_prep arg

                                The library preparation for long reads. 

                                Choices:[cDNA-ONT,dRNA-ONT,cDNA-PacBio] 

                                (default: cDNA-ONT)

      --short_reads_strandness arg

                                The strandness of short reads. 

                                Choices:[unstranded,fr-stranded,rf-stranded]

 

                                *fr-strandred: Strand specific reads, first 

                                read forward

                                *rf-stranded: Strand specific reads, first 

                                read reverse

                                 (default: unstranded)

      --short_reads_mean_fragment_length arg

                                Mean value of short reads fragment lengths 

                                (default: 235.0)

      --short_reads_sd_fragment_length arg

                                Standard deviation of short reads fragment 

                                lengths (default: 23.0)

  -t, --threads arg             Num of threads (default: 1)

      --mem arg                 Max RAM usage in GB allowed when aligning 

                                the reads (default: 5.0)

  -h, --help                    Print usage

 

> miniQuant kvalue -h

Calculate K-value to identify a problematic set of gene isoforms with erroneous quantification

 

Usage:

  miniQuant kvalue [OPTION...]

 

 Required options:

  -a, --annotation arg  Gene isoform annotation file in GTF, GFF or 

                        genePred format

  -o, --output arg      Output folder

 

 Optional options:

  -t, --threads arg             Num of threads (default: 1)

      --short_reads_mean_fragment_length arg

                                Mean value of short reads fragment lengths 

                                (default: 235.0)

  -h, --help                    Print usage

 

 

 

テストラン

1、ロングリードのみを使った定量

ロングリードのfastq(gzip圧縮も認識)とリファレンスのfastaファイル(ゲノムでなく転写産物のfasta)を指定する。

git clone https://github.com/Augroup/miniQuant.git
cd miniQuant/
#docker run
docker run -itv $PWD:/data -w /data --rm  tidesun/miniquant:latest bash

/app/miniQuant quant -r example/reference.fa -l example/LR.fasta.gz -t 8 -o miniQuant_LR_alone_res
  • -r     Reference transcripts sequence file in FASTA format
  • -l     Input long reads file in plain or gzipped FASTA/FASTQ format. Leave blank if using only short reads. (default: "")
  • -t     Num of threads (default: 1)
  • -o    Output folder

miniQuant_LR_alone_res/abundance.tsvが保存される。

出力

転写産物ID、TPMとexpected count(期待値)が記録されている。

 

2、ロングリードとショートリード両方を使った定量 (ハイブリッドモード)。

/app/miniQuant quant -r example/reference.fa -l example/LR.fasta.gz \
-1 example/SR_R1.fasta.gz -2 example/SR_R2.fasta.gz \
-t 8 -o miniQuant_hybrid_res
  • -1    Input short reads pair 1 in plain or gzipped FASTA/FASTQ format. Leave blank if using only long reads. (default: "")
  • -2    Input short reads pair 2 in plain or gzipped FASTA/FASTQ format. Leave blank if using  only long reads. (default: "")

出力

miniQuant_hybrid_res/abundance.tsv 

転写産物ID、TPM、ロングリードとショートリードそれぞれのexpected countが記録されている。

 

定量が難しい遺伝子を識別するための指標であるK値を計算する。

/app/miniQuant kvalue -a example/annotation.gtf -o outdir

出力

K-value が大きいほど定量誤差のリスクが高いことを意味する。ショートアイソフォームのみで構成される遺伝子(すなわち、すべてのアイソフォームの長さが--short_reads_mean_fragment_length未満の場合)は、K値は計算されずNA値が付与される。

 

その他

  • 高速なRNA-seqの定量:標準的なノートパソコンで、アラインメント未処理の4,000万ペアエンドショートリード+500万ロングリードを15分未満で分析可能。

  • 新規K値メトリック計算:特に発現量推定誤差が大きくなる配列共有パターンの特徴を定量化する指標を開発。これにより、定量誤差が生じやすい遺伝子アイソフォーム群を特定可能となり、研究において特に注意が必要な対象を明確にできる。

  • ハイブリッドモードでは、ショートとロングの両者の弱点を補う効果がある。例えばロングリードのみでは低発現アイソフォームの定量が難しくても、深く読んだショートリードではより揺らぎが少なく定量できる可能性が高い。一方、ショートリードでは全体にわたって配列が近いアイソフォーム間を区別した定量が難しくても、転写産物全長に近いロングリードではアイソフォームを区別して定量する能力が高い。

引用

Improving gene isoform quantification with miniQuant

Haoran Li, Dingjie Wang, Qi Gao, Puwen Tan, Yunhao Wang, Xiaoyu Cai, Aifu Li, Yue Zhao, Andrew L. Thurman, Seyed Amir Malekpour, Ying Zhang, Roberta Sala, Andrea Cipriano, Chia-Lin Wei, Vittorio Sebastiano, Chi Song, Nancy R. Zhang & Kin Fai Au

Nature Biotechnology (2025),  Published: 03 June 2025

 

関連