macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ロングリードトランスクリプトームの高効率なクラスタリングを行う geluster

 

 ロングリードRNAシーケンス技術の進歩は、トランスクリプトーム解析に明るい未来をもたらした。ロングリードをその起源遺伝子ファミリーにしたがってクラスタリングすることは非常に重要である。しかし、既存のde novoクラスタリングアルゴリズムは、膨大な計算資源を必要とする。

ロングRNA-seqリードをクラスタリングする新しいアルゴリズムGeLusterを開発した。1つのシミュレーションデータセットと9つの実データセットでのテストで、GeLusterは優れた性能を示した。テストしたNanoporeデータセットでは、2番目に高速な手法の2.9~17.5倍の速度で動作し、メモリ消費量は7分の1以下でありながら、高いクラスタリング精度を達成した。また、PacBioデータでもGeLusterは同様の性能を示した。GeLusterは将来の大規模トランスクリプトーム研究の舞台に対応する。

 

インストール

minimap2とsamtoolsが必要。下では2つのツールの導入については省略している。

依存

  • g++ with support for C++11 (e.g. 9.4.0)
  • minimap2 (In the GeLuster paper we tested with version 2.24-r1122)
  • samtools (In the GeLuster paper we tested with version 1.10)

Github

https://github.com/yutingsdu/GeLuster

git clone https://github.com/yutingsdu/GeLuster.git
cd GeLuster/src/
make -j8
cd ../

> ../GeLuster  

[Error] : Reads file is not provided!

    

===========================================================================

 

GeLuster usage:

 

** Required **

 

--reads/-r <string>     : path to the read file

 

---------------------------------------------------------------------------

 

** Options **

 

--help/-h          : Output GeLuster Help Information.

 

--version/-v          : Print current version of GeLuster.

 

--iteration/-i <int>      : Number of GeLuster iterations ([3,9], default: 3).

 

--seqType/-s <string>      : 'cDNA' for ONT cDNA data, 'dRNA' for ONT direct RNA data, or 'PacBio' for pacbio data (default:cDNA).

 

--rform/-f <string>      : 'fq' for FASTQ format reads, 'fa' for FASTA format reads (default: fq).

 

--threads/-t <int>       : Number of threads to be used (default: 10).

 

--multi/-M           : To generate a proxy of gene expression matrix for multiple RNA-seq samples. Input files should be separated by commas.

 

--output_dir/-o <string>  : Output path, default: geluster_outdir.

 

---------------------------------------------------------------------------

 

** Typical commands **

 

A typical GeLuster command might be:

 

  GeLuster -r reads.fastq -f fq -s cDNA -o geluster_outdir 

 

===========================================================================

 

 

 

テストラン

cd GeLuster/sample_test/
./run_me.sh

出力

geluster_outdir/



実行方法

ロングリードを指定する。

GeLuster -r Test.fastq -s cDNA -o out
  • -s    'cDNA' for ONT cDNA data, 'dRNA' for ONT direct RNA data, or 'PacBio' for pacbio data (default:cDNA).
  • -f    'fq' for FASTQ format reads, 'fa' for FASTA format reads (default: fq).

 

出力TSVは1リードにつき1行のテキストファイルとなっている。各行には、リードの名前とそのリードが属するクラスタがプリントされる、

 

サブディレクトリfastq_filesにはクラスタ毎にfastqが保存される。

 

複数のサンプル(細胞)から得られたRNA-seqリードを入力とし、入力されたサンプル(細胞)について遺伝子発現行列を生成することもできる。

GeLuster -r reads1.fastq,reads2.fastq,reads3.fastq -f fq -s cDNA --multi -o geluster_outdir
  • --multi/-M    To generate a proxy of gene expression matrix for multiple RNA-seq samples. Input files should be separated by commas.

出力行列の各項目は、与えられたサンプル(細胞)における特定のクラスタ(遺伝子)のリード数(発現レベル)を表す。

 

レポジトリより

  • GeLusterは、参照情報を使わずにde novoで発現行列を生成する。このアプローチは、参照情報がない生物種でも機能すると期待される。

引用

Highly efficient clustering of long-read transcriptomic data with geluster 
Junchi Ma, Xiaoyu Zhao, Enfeng Qi, Renmin Han, Ting Yu, Guojun Li Author Notes
Bioinformatics, Published: 03 February 2024