macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

De novoトランスクリプトームアセンブリで誤ってアセンブリされたキメラ転写産物を除去する Bellerophon

 

 トランスクリプトームの品質管理は、RNA-Seq実験において重要なステップである。しかし、de novo アセンブルされたトランスクリプトームの品質を評価することは、アセンブルを比較するリファレンスゲノムがないために困難である。本著者らは、キメラ配列の除去に着目し、de novo アセンブル・トランスクリプトームの品質を評価・向上させる方法を開発した。これらのキメラ配列は、コンティグの組み立てに失敗し、2つの転写産物が1つに統合された結果である可能性がある。開発した手法は、Bellerophonと名づけたパイプラインに組み込まれており、広く適用可能で使いやすい。Bellerophonは、まず品質評価ツールであるTransRateを用いて品質を示し、その後、transcripts per million (TPM)フィルターを用いて発現量の少ないコンティグを除去し、CD-HIT-ESTを用いて同一性の高いコンティグを除去する。この手法の品質を検証するために、3つのベンチマーク実験を行った。(1)キメラの計算上の作成、(2)トランスクリプトームアセンブリにおけるキメラコンティグの同定、(3)既知のリファレンストランスクリプトームを用いたRNA-Seq実験のシミュレーション。その結果、Bellerophonパイプラインは、トランスクリプトームアセンブリ中のキメラを40%から91.9%除去することができ、非キメラコンティグよりも多くのキメラコンティグを除去することができた。このように、Bellerophonの一連のフィルタリングステップは、トランスクリプトームアセンブリを改善するための広範に適用可能なソリューションである。

 

インストール

依存

Github

git clone https://github.com/JesseKerkvliet/Bellerophon.git
cd Bellerophon/
mamba env create --file envs/Bellerophon.yml
conda activate Bellerophon

> python Bellerophon.py -h

usage: Bellerophon.py [-h] -a ASSEMBLY -l LEFT -r RIGHT [-c CDHIT_CUTOFF]

                      [-t TPM_CUTOFF] [-o ORF_CUTOFF] [-T THREADS] [-S ORDER]

                      [-O OUTDIR]

 

optional arguments:

  -h, --help            show this help message and exit

  -a ASSEMBLY, --assembly ASSEMBLY

                        Assembly file

  -l LEFT, --left LEFT  Left reads

  -r RIGHT, --right RIGHT

                        Right reads

  -c CDHIT_CUTOFF, --cdhit_cutoff CDHIT_CUTOFF

                        Cluster cutoff for CDHIT

  -t TPM_CUTOFF, --tpm_cutoff TPM_CUTOFF

                        TPM expression cutoff

  -o ORF_CUTOFF, --orf_cutoff ORF_CUTOFF

                        Length cutoff for ORF filtering

  -T THREADS, --threads THREADS

                        Number of threads

  -S ORDER, --order ORDER

                        Filtering order

  -O OUTDIR, --outdir OUTDIR

                        Output directory

 

 

テストラン

cd Bellerophon/
python Bellerophon.py --assembly Demo.fasta --left All_R1_1000.fastq --right All_R2_1000.fastq --outdir outdir

 

 

引用
The Bellerophon pipeline, improving de novo transcriptomes and removing chimeras
Jesse Kerkvliet, Arthur de Fouchier, Michiel van Wijk, Astrid Tatjana Groot

Ecol Evol. 2019 Sep; 9(18): 10513–10521

 

関連