トランスクリプトームの品質管理は、RNA-Seq実験において重要なステップである。しかし、de novo アセンブルされたトランスクリプトームの品質を評価することは、アセンブルを比較するリファレンスゲノムがないために困難である。本著者らは、キメラ配列の除去に着目し、de novo アセンブル・トランスクリプトームの品質を評価・向上させる方法を開発した。これらのキメラ配列は、コンティグの組み立てに失敗し、2つの転写産物が1つに統合された結果である可能性がある。開発した手法は、Bellerophonと名づけたパイプラインに組み込まれており、広く適用可能で使いやすい。Bellerophonは、まず品質評価ツールであるTransRateを用いて品質を示し、その後、transcripts per million (TPM)フィルターを用いて発現量の少ないコンティグを除去し、CD-HIT-ESTを用いて同一性の高いコンティグを除去する。この手法の品質を検証するために、3つのベンチマーク実験を行った。(1)キメラの計算上の作成、(2)トランスクリプトームアセンブリにおけるキメラコンティグの同定、(3)既知のリファレンストランスクリプトームを用いたRNA-Seq実験のシミュレーション。その結果、Bellerophonパイプラインは、トランスクリプトームアセンブリ中のキメラを40%から91.9%除去することができ、非キメラコンティグよりも多くのキメラコンティグを除去することができた。このように、Bellerophonの一連のフィルタリングステップは、トランスクリプトームアセンブリを改善するための広範に適用可能なソリューションである。
インストール
git clone https://github.com/JesseKerkvliet/Bellerophon.git
cd Bellerophon/
mamba env create --file envs/Bellerophon.yml
conda activate Bellerophon
> python Bellerophon.py -h
usage: Bellerophon.py [-h] -a ASSEMBLY -l LEFT -r RIGHT [-c CDHIT_CUTOFF]
[-t TPM_CUTOFF] [-o ORF_CUTOFF] [-T THREADS] [-S ORDER]
[-O OUTDIR]
optional arguments:
-h, --help show this help message and exit
-a ASSEMBLY, --assembly ASSEMBLY
Assembly file
-l LEFT, --left LEFT Left reads
-r RIGHT, --right RIGHT
Right reads
-c CDHIT_CUTOFF, --cdhit_cutoff CDHIT_CUTOFF
Cluster cutoff for CDHIT
-t TPM_CUTOFF, --tpm_cutoff TPM_CUTOFF
TPM expression cutoff
-o ORF_CUTOFF, --orf_cutoff ORF_CUTOFF
Length cutoff for ORF filtering
-T THREADS, --threads THREADS
Number of threads
-S ORDER, --order ORDER
Filtering order
-O OUTDIR, --outdir OUTDIR
Output directory
テストラン
cd Bellerophon/
python Bellerophon.py --assembly Demo.fasta --left All_R1_1000.fastq --right All_R2_1000.fastq --outdir outdir
引用
The Bellerophon pipeline, improving de novo transcriptomes and removing chimeras
Jesse Kerkvliet, Arthur de Fouchier, Michiel van Wijk, Astrid Tatjana Groot
Ecol Evol. 2019 Sep; 9(18): 10513–10521
関連