ロングリードRNAシーケンス技術の進歩は、トランスクリプトーム解析に明るい未来をもたらした。ロングリードをその起源遺伝子ファミリーにしたがってクラスタリングすることは非常に重要である。しかし、既存のde novoクラスタリングアルゴリズムは、膨大な計算資源を必要とする。
ロングRNA-seqリードをクラスタリングする新しいアルゴリズムGeLusterを開発した。1つのシミュレーションデータセットと9つの実データセットでのテストで、GeLusterは優れた性能を示した。テストしたNanoporeデータセットでは、2番目に高速な手法の2.9~17.5倍の速度で動作し、メモリ消費量は7分の1以下でありながら、高いクラスタリング精度を達成した。また、PacBioデータでもGeLusterは同様の性能を示した。GeLusterは将来の大規模トランスクリプトーム研究の舞台に対応する。
インストール
minimap2とsamtoolsが必要。下では2つのツールの導入については省略している。
依存
- g++ with support for C++11 (e.g. 9.4.0)
- minimap2 (In the GeLuster paper we tested with version 2.24-r1122)
- samtools (In the GeLuster paper we tested with version 1.10)
https://github.com/yutingsdu/GeLuster
git clone https://github.com/yutingsdu/GeLuster.git
cd GeLuster/src/
make -j8
cd ../
> ../GeLuster
[Error] : Reads file is not provided!
===========================================================================
GeLuster usage:
** Required **
--reads/-r <string> : path to the read file
---------------------------------------------------------------------------
** Options **
--help/-h : Output GeLuster Help Information.
--version/-v : Print current version of GeLuster.
--iteration/-i <int> : Number of GeLuster iterations ([3,9], default: 3).
--seqType/-s <string> : 'cDNA' for ONT cDNA data, 'dRNA' for ONT direct RNA data, or 'PacBio' for pacbio data (default:cDNA).
--rform/-f <string> : 'fq' for FASTQ format reads, 'fa' for FASTA format reads (default: fq).
--threads/-t <int> : Number of threads to be used (default: 10).
--multi/-M : To generate a proxy of gene expression matrix for multiple RNA-seq samples. Input files should be separated by commas.
--output_dir/-o <string> : Output path, default: geluster_outdir.
---------------------------------------------------------------------------
** Typical commands **
A typical GeLuster command might be:
GeLuster -r reads.fastq -f fq -s cDNA -o geluster_outdir
===========================================================================
テストラン
cd GeLuster/sample_test/
./run_me.sh
出力
geluster_outdir/
実行方法
ロングリードを指定する。
GeLuster -r Test.fastq -s cDNA -o out
- -s 'cDNA' for ONT cDNA data, 'dRNA' for ONT direct RNA data, or 'PacBio' for pacbio data (default:cDNA).
- -f 'fq' for FASTQ format reads, 'fa' for FASTA format reads (default: fq).
出力TSVは1リードにつき1行のテキストファイルとなっている。各行には、リードの名前とそのリードが属するクラスタがプリントされる、
サブディレクトリfastq_filesにはクラスタ毎にfastqが保存される。
複数のサンプル(細胞)から得られたRNA-seqリードを入力とし、入力されたサンプル(細胞)について遺伝子発現行列を生成することもできる。
GeLuster -r reads1.fastq,reads2.fastq,reads3.fastq -f fq -s cDNA --multi -o geluster_outdir
- --multi/-M To generate a proxy of gene expression matrix for multiple RNA-seq samples. Input files should be separated by commas.
出力行列の各項目は、与えられたサンプル(細胞)における特定のクラスタ(遺伝子)のリード数(発現レベル)を表す。
レポジトリより
- GeLusterは、参照情報を使わずにde novoで発現行列を生成する。このアプローチは、参照情報がない生物種でも機能すると期待される。
引用
Highly efficient clustering of long-read transcriptomic data with geluster
Junchi Ma, Xiaoyu Zhao, Enfeng Qi, Renmin Han, Ting Yu, Guojun Li Author Notes
Bioinformatics, Published: 03 February 2024