RNA-seqリードからの転写産物アセンブルは、遺伝子発現やその後の機能解析において重要なステップとなる。本発表では、複数のRNA-seqサンプルを同時に解析するアプローチに基づく、正確かつ効率的なトランスクリプトアセンブラであるPsiCLASSを紹介する。PsiCLASSは、複数サンプルにまたがるエキソン特徴抽出のための混合統計モデルと、スプライスグラフに基づく動的プログラミングアルゴリズム、および転写産物選択のための重み付け投票スキームを組み合わせて構成されている。PsiCLASSは感度-精度のトレードオフを大幅に改善し、現在最も優れた2つのアプローチであるStringTieシステムおよびScallop plus TACOと比較して、最大で2-3倍高い精度を実現している。PsiCLASSは効率的でスケーラブルであり、667個のGEUVADISサンプルを9時間で処理し、大量のサンプルに対しても安定した精度を実現した。
インストール
依存
- PsiCLASS depends on pthreads and samtools depends on zlib.
本体 Github
git clone https://github.com/splicebox/psiclass.git
cd psiclass/
make
#conda(link)
mamba install -c bioconda psiclass -y
> ./psiclass
$ ./psiclass
Usage: ./psiclass [OPTIONS]
Required:
-b STRING: paths to the alignment BAM files. Use comma to separate multiple BAM files
or
--lb STRING: path to the file listing the alignments BAM files
Optional:
-s STRING: path to the trusted splice file (default: not used)
-o STRING: prefix of output files (default: ./psiclass)
-p INT: number of processes/threads (default: 1)
-c FLOAT: only use the subexons with classifier score <= than the given number (default: 0.05)
--sa FLOAT: the minimum average number of supported read for retained introns (default: 0.5)
--vd FLOAT : the minimum average coverage depth of a transcript to be reported (defaults: 1.0)
--stage INT: (default: 0)
0-start from beginning - building splice sites for each sample
1-start from building subexon files for each sample
2-start from combining subexon files across samples
3-start from assembling the transcripts for each sample
4-start from voting the consensus transcripts across samples
テストラン
example/にある2つのbamファイルを指定する。
./psiclass -b example/s1.bam,example/s2.bam
psiclass_sample_1.gtf、psiclass_sample_0.gtf、そしてpsiclass_vote.gtfが出力される。
引用
A multi-sample approach increases the accuracy of transcript assembly
Li Song, Sarven Sabunciyan, Guangyu Yang, Liliana Florea
Nature Communications volume 10, 5000 (2019)
関連